<a href="https://colab.research.google.com/github/dialejo/panda-project/blob/main/Panda_project_csv.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Leyendo archivos CSV**

**¿Qué es esto de UTF-8?**

El error de encoding ocurre cuando la biblioteca Pandas no puede interpretar correctamente los caracteres en un archivo CSV. Esto puede suceder cuando contiene caracteres especiales que la biblioteca Pandas no reconoce o cuando se guardó en un formato de codificación diferente al esperado.

Para resolver este error, es necesario identificar la codificación correcta del archivo CSV y especificarla al cargar el archivo con la biblioteca Pandas. Esta codificación predeterminada es UTF-8, pero en algunos casos, es posible que el archivo se haya guardado con una codificación diferente, como ISO-8859-1.

UTF-8 es una codificación de caracteres universal que se utiliza para representar caracteres de diferentes idiomas de una manera compatible con Internet y los sistemas de computadora en general. Las siglas UTF significan Unicode Transformation Format (Formato de Transformación Unicode) y el número 8 indica que esta codificación asocia una secuencia de 1 a 4 bytes (8 a 32 bits) a cada carácter.

La codificación UTF-8 se usa ampliamente en Internet y en sistemas informáticos de todo el mundo, ya que permite representar caracteres de diferentes idiomas en un solo conjunto de caracteres. Además, esta codificación puede preservar la compatibilidad con codificaciones más antiguas como ASCII, lo que la convierte en una opción popular para crear y compartir archivos de texto.

Hay algunas formas de resolver esto, sin embargo, tendremos la oportunidad de experimentar una forma práctica de hacerlo en el propio Google Colab. ¿Vamos allá?

Podemos usar una biblioteca llamada chardet para detectar el encoding de un archivo CSV. Para usar esta biblioteca en Google Colab, simplemente importela:

In [2]:
import chardet
with open('/content/drive/MyDrive/raw data/superstore_data_punto_coma.csv', 'rb') as file:
    print(chardet.detect(file.read()))


{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}


Observe que la primera línea de este código abre el archivo CSV en modo de lectura binaria rb y asigna el objeto del archivo devuelto a una variable llamada file.

En la segunda línea de código, el contenido del archivo CSV se lee usando el método read() y el resultado se pasa a la función chardet.detect(), que devuelve un diccionario que contiene información sobre la codificación más probable del archivo. El resultado se imprime con la función print() que muestra la codificación y la confianza asociada con esa codificación.

Ahora se sabe que es probable que el archivo CSV esté codificado con ascii con una confianza de 1.0. Para especificar la codificación correcta al cargar el archivo CSV con la biblioteca Pandas, puede utilizar un parámetro llamado encoding: df = pd.read_csv('/content/sample_data/superstore_data.csv', encoding='ascii')


##datos separados con ,

In [3]:
import pandas as pd

In [4]:
url = '/content/drive/MyDrive/raw data/superstore_data.csv'
datos = pd.read_csv(url)
datos

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2235,10142,1976,PhD,Divorced,66476.0,0,1,7/3/2013,99,372,...,47,48,78,2,5,2,11,4,0,0
2236,5263,1977,2n Cycle,Married,31056.0,1,0,1/22/2013,99,5,...,3,8,16,1,1,0,3,8,0,0
2237,22,1976,Graduation,Divorced,46310.0,1,0,3/12/2012,99,185,...,15,5,14,2,6,1,5,8,0,0
2238,528,1978,Graduation,Married,65819.0,0,0,11/29/2012,99,267,...,149,165,63,1,5,4,10,3,0,0


In [5]:
datos.head(5)

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [6]:
datos.shape

(2240, 22)

##datos separados con ;

In [7]:
url2 = '/content/drive/MyDrive/raw data/superstore_data_punto_coma.csv'
datos2 = pd.read_csv(url2, sep=';')
datos2

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2235,10142,1976,PhD,Divorced,66476.0,0,1,7/3/2013,99,372,...,47,48,78,2,5,2,11,4,0,0
2236,5263,1977,2n Cycle,Married,31056.0,1,0,1/22/2013,99,5,...,3,8,16,1,1,0,3,8,0,0
2237,22,1976,Graduation,Divorced,46310.0,1,0,3/12/2012,99,185,...,15,5,14,2,6,1,5,8,0,0
2238,528,1978,Graduation,Married,65819.0,0,0,11/29/2012,99,267,...,149,165,63,1,5,4,10,3,0,0


In [8]:
datos2.head(5)

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [9]:
datos2.shape

(2240, 22)

In [10]:
datos2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 22 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Id                   2240 non-null   int64  
 1   Year_Birth           2240 non-null   int64  
 2   Education            2240 non-null   object 
 3   Marital_Status       2240 non-null   object 
 4   Income               2216 non-null   float64
 5   Kidhome              2240 non-null   int64  
 6   Teenhome             2240 non-null   int64  
 7   Dt_Customer          2240 non-null   object 
 8   Recency              2240 non-null   int64  
 9   MntWines             2240 non-null   int64  
 10  MntFruits            2240 non-null   int64  
 11  MntMeatProducts      2240 non-null   int64  
 12  MntFishProducts      2240 non-null   int64  
 13  MntSweetProducts     2240 non-null   int64  
 14  MntGoldProds         2240 non-null   int64  
 15  NumDealsPurchases    2240 non-null   i

In [11]:
datos2.isna().sum()

Unnamed: 0,0
Id,0
Year_Birth,0
Education,0
Marital_Status,0
Income,24
Kidhome,0
Teenhome,0
Dt_Customer,0
Recency,0
MntWines,0


##**Parametros de funcion read_csv**

Documentacion: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

In [12]:
datos_primeras_lineas = pd.read_csv(url,nrows = 5)
datos_primeras_lineas

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [13]:
Datos_seleccion_columns = pd.read_csv(url,usecols=['Id','Year_Birth','Income'])
Datos_seleccion_columns

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


In [14]:
import datetime
Datos_seleccion_columns['Age'] = Datos_seleccion_columns['Year_Birth'].apply(lambda x: datetime.datetime.now().year - x)

Datos_seleccion_columns

Unnamed: 0,Id,Year_Birth,Income,Age
0,1826,1970,84835.0,55
1,1,1961,57091.0,64
2,10476,1958,67267.0,67
3,1386,1967,32474.0,58
4,5371,1989,21474.0,36
...,...,...,...,...
2235,10142,1976,66476.0,49
2236,5263,1977,31056.0,48
2237,22,1976,46310.0,49
2238,528,1978,65819.0,47


In [15]:
filtro = Datos_seleccion_columns['Age']<78
Dfiltrados = Datos_seleccion_columns[filtro]
Dfiltrados

Unnamed: 0,Id,Year_Birth,Income,Age
0,1826,1970,84835.0,55
1,1,1961,57091.0,64
2,10476,1958,67267.0,67
3,1386,1967,32474.0,58
4,5371,1989,21474.0,36
...,...,...,...,...
2235,10142,1976,66476.0,49
2236,5263,1977,31056.0,48
2237,22,1976,46310.0,49
2238,528,1978,65819.0,47


In [16]:
Datos_seleccion_columns['Age'].unique()

array([ 55,  64,  67,  58,  36,  71,  78,  46,  66,  44,  56,  48,  65,
        59,  49,  60,  69,  50,  54,  39,  53,  51,  35,  38,  41,  57,
        70,  42,  52,  47,  73,  63,  61,  43,  62,  68,  45,  80,  76,
        77,  72,  79,  40,  33,  81,  74,  37,  75,  31,  32,  34, 132,
        29,  30, 126,  82,  84,  85, 125])

##**Guardando archivo CSV**

In [17]:
Datos_seleccion_columns.to_csv('/content/drive/MyDrive/raw data/Clientes_mercado.csv',index=False)

In [18]:
Clientes_mercado = pd.read_csv('/content/drive/MyDrive/raw data/Clientes_mercado.csv')
Clientes_mercado

Unnamed: 0,Id,Year_Birth,Income,Age
0,1826,1970,84835.0,55
1,1,1961,57091.0,64
2,10476,1958,67267.0,67
3,1386,1967,32474.0,58
4,5371,1989,21474.0,36
...,...,...,...,...
2235,10142,1976,66476.0,49
2236,5263,1977,31056.0,48
2237,22,1976,46310.0,49
2238,528,1978,65819.0,47


Para aprovechar al máximo todas las funciones de la biblioteca, es esencial explorar su documentación, que es extensa y está bien organizada, y a la que se puede acceder fácilmente en línea. Consulta las indicaciones:

Función read_csv: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

Función to_csv: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html


##**Ejercicio**

In [19]:
import chardet
import pandas as pd
with open('/content/drive/MyDrive/raw data/datos_sus.csv','rb') as file:
  print(chardet.detect(file.read()))


{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}


In [20]:

url3= '/content/drive/MyDrive/raw data/datos_sus.csv'
datos3 = pd.read_csv(url3,sep=';',encoding='ISO-8859-1',skiprows=3,skipfooter=9,engine='python')
datos3.sample(5)

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
12,Pernambuco,1439394989,2418140095,2999130271,3480619797,3214798735,3223909489,3268564076,3545703866,3366826146,...,7491467743,7723288101,7171567742,6655562825,7890417621,7097805215,8384622244,7556266469,8387099273,858118997591
20,Paraná,3826634746,5538467052,5380131885,5246030669,5441962071,5781168848,5809424183,5698277490,5754908226,...,10972066359,12952922248,12270226326,12964787397,12685905102,12003706676,12212277912,13262211272,14026460852,1468151470667
18,Rio de Janeiro,2302525852,2839431093,4456706294,4405460482,4491102115,4805621224,4987237935,5091270660,4927035276,...,9933135201,9633961599,8830523994,8699564935,8677650097,9041672595,9417967442,8558355795,10683729581,1033739116452
0,Rondônia,138852839,293128342,154168252,152531496,164595384,140615068,306527901,323149461,311717863,...,1182468713,1173330776,1020198514,795513945,935794629,888083655,926601459,773059704,1102330947,99641125468
24,Mato Grosso,479529901,868488223,788624314,879410979,923164540,1022176377,916331428,924314881,905235489,...,1683465098,1970491536,2074622760,2272740520,2050603958,1958380346,1912014168,1834937692,1961103261,218011978115


#**Leyendo archivos excel**

##**importando el archivo .xlsx

In [21]:
url4 = '/content/drive/MyDrive/raw data/emisiones_CO2.xlsx'

datos_co2=pd.read_excel(url4)

datos_co2.sample(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
45464,Corea Del Sur,KOR,1790,0.0,,,,,,,
7540,Brasil,BRA,1946,7460241.0,6892264.0,142826.0,18311.0,406840.0,0.0,,
8414,Bulgaria,BGR,2004,49583352.0,29945777.0,11717210.0,5812426.0,1444254.0,118646.0,545039.0,6304051.0
50403,Sierra Leona,SLE,1833,0.0,,,,0.0,,,
45196,Camerún,CMR,1794,0.0,,,,,,,


In [22]:
pd.ExcelFile(url4).sheet_names

['emisiones_C02', 'emisiones_percapita', 'fuentes']

In [23]:
datos_co2_sheet1 = pd.read_excel(url4,sheet_name='emisiones_C02')
datos_co2_sheet1.sample(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
51052,Eslovaquia,SVK,1938,14983047.0,14959862.0,21012.0,2174.0,0.0,0.0,,
9466,Canadá,CAN,1968,303261340.0,60577644.0,179204741.0,55524927.0,3659768.0,4294260.0,,14627744.0
61308,Vietnam,VNM,1858,0.0,,,,,,,
11417,Colombia,COL,2015,95472340.0,19144400.0,46133424.0,23100592.0,5551158.0,1542766.0,,2026165.0
3799,Azerbaiyán,AZE,2013,33555218.0,10992.0,12065552.0,19935824.0,721760.0,821090.0,,3490072.0


##**xls**

El formato xls es un formato de archivo de Excel más antiguo y se utilizó hasta la versión de 2003.

##**xlsx**

El formato xlsx es el formato de archivo de Excel predeterminado a partir de la versión 2007. Este formato se basa en XML(Extensible Markup Language - Lenguaje de marcación extensible) y es ampliamente compatible con otras herramientas de hojas de cálculo online, incluida Google Sheets.

##**xlsm**

También existe xlsm, una extensión de archivo utilizada por Excel para almacenar hojas de cálculo que contienen macros. Son secuencias de comandos o instrucciones que se pueden ejecutar automáticamente para realizar tareas específicas en la hoja de trabajo.

Entonces, el formato xlsm permite guardar las macros junto con la hoja de trabajo, de modo que puedan ejecutarse cada vez que se abra la hoja de trabajo.



##**xlsb**

Por último, tenemos el formato xlsb, una extensión de archivo que utiliza Excel para almacenar hojas de cálculo en formato binario. La codificación binaria permite abrir y guardar hojas de cálculo más rápido que aquellas en formato xlsx.

Los formatos odf, ods y odt son archivos abiertos, gratuitos y universales que pueden ser utilizados por cualquier software, es decir, fueron creados para ser independientes de plataformas, esto quiere decir que pueden ser utilizados en diferentes sistemas operativos, como Windows, Linux y Mac OS.

Además, son independientes de aplicaciones y se pueden utilizar en muchos programas diferentes, incluidos OpenOffice, LibreOffice, Google Docs y Microsoft Office. Este estándar de archivos fue creado y es mantenido por OASIS (Organization for the Advancement of Structured Information Standards), una organización internacional creada para desarrollar y promover estándares digitales para su uso en Internet.

¡Muy bien! Ahora sabemos un poco más sobre todos los tipos de archivos que se pueden leer con la función read_excel.

Formatos de archivo compatibles con Excel:https://support.microsoft.com/es-es/office/formatos-de-archivo-que-admite-excel-0943ff2c-6014-4e8d-aaea-b83d51d46247

OpenDocument: https://pt.wikipedia.org/wiki/OpenDocument

In [24]:
datos_co2_sheet2 = pd.read_excel(url4, sheet_name='emisiones_percapita')
datos_co2_sheet2.tail(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros
63099,Global,WLD,2017,4749682.0,1908857.0,1610910.0,940144.0,198416.0,51579.0,39776.0
63100,Global,WLD,2018,4792753.0,1919213.0,1596350.0,979965.0,204225.0,53634.0,39366.0
63101,Global,WLD,2019,4775633.0,1896468.0,1589920.0,984878.0,208309.0,56569.0,39490.0
63102,Global,WLD,2020,4497423.0,1807760.0,1427353.0,963695.0,208844.0,51981.0,37789.0
63103,Global,WLD,2021,4693699.0,1893923.0,1496614.0,1001585.0,211472.0,52663.0,37443.0


In [25]:
datos_co2_sheet3 = pd.read_excel(url4, sheet_name='fuentes')
datos_co2_sheet3.tail(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total,Carbón,Aceite,Gas,Cemento,Quema,Otros,Per Capita
63099,Global,WLD,2017,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63100,Global,WLD,2018,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63101,Global,WLD,2019,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63102,Global,WLD,2020,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63103,Global,WLD,2021,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."


In [26]:
datos_co2_sheet3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63104 entries, 0 to 63103
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   País                63104 non-null  object
 1   ISO 3166-1 alpha-3  61472 non-null  object
 2   Año                 63104 non-null  int64 
 3   Total               63104 non-null  object
 4   Carbón              63104 non-null  object
 5   Aceite              63104 non-null  object
 6   Gas                 63104 non-null  object
 7   Cemento             63104 non-null  object
 8   Quema               63104 non-null  object
 9   Otros               63104 non-null  object
 10  Per Capita          63104 non-null  object
dtypes: int64(1), object(10)
memory usage: 5.3+ MB


In [27]:
datos_co2_sheet1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63104 entries, 0 to 63103
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   País                63104 non-null  object 
 1   ISO 3166-1 alpha-3  61472 non-null  object 
 2   Año                 63104 non-null  int64  
 3   Total               62904 non-null  float64
 4   Carbón              21744 non-null  float64
 5   Aceite              21717 non-null  float64
 6   Gas                 21618 non-null  float64
 7   Cemento             20814 non-null  float64
 8   Quema               21550 non-null  float64
 9   Otros               1620 non-null   float64
 10  Per Capita          18974 non-null  float64
dtypes: float64(8), int64(1), object(2)
memory usage: 5.3+ MB


In [28]:
datos_co2_sheet2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63104 entries, 0 to 63103
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   País                63104 non-null  object 
 1   ISO 3166-1 alpha-3  61472 non-null  object 
 2   Año                 63104 non-null  int64  
 3   Total               18972 non-null  float64
 4   Carbón              17138 non-null  float64
 5   Aceite              17039 non-null  float64
 6   Gas                 17012 non-null  float64
 7   Cemento             15448 non-null  float64
 8   Quema               16944 non-null  float64
 9   Otros               1620 non-null   float64
dtypes: float64(7), int64(1), object(2)
memory usage: 4.8+ MB


In [29]:
intervalo = pd.read_excel(url4,sheet_name='emisiones_C02',usecols='A:D')
intervalo.sample(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
3874,Bahamas,BHS,1816,0.0
24082,Haití,HTI,1896,0.0
20560,Gabón,GAB,1910,0.0
58442,Tuvalu,TUV,1984,0.0
19427,África Ecuatorial Francesa,,1865,0.0


In [30]:
intervalo_2 = pd.read_excel(url4,sheet_name='emisiones_C02',usecols='A:D',nrows=10)
intervalo_2

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,0
1,Afganistán,AFG,1751,0
2,Afganistán,AFG,1752,0
3,Afganistán,AFG,1753,0
4,Afganistán,AFG,1754,0
5,Afganistán,AFG,1755,0
6,Afganistán,AFG,1756,0
7,Afganistán,AFG,1757,0
8,Afganistán,AFG,1758,0
9,Afganistán,AFG,1759,0


## **Exportando el archivo Excel**

In [31]:
intervalo.to_excel('/content/drive/MyDrive/raw data/co2_percapita.xlsx', index= False)

In [32]:
pd.read_excel('/content/drive/MyDrive/raw data/co2_percapita.xlsx')

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
0,Afganistán,AFG,1750,0.000000e+00
1,Afganistán,AFG,1751,0.000000e+00
2,Afganistán,AFG,1752,0.000000e+00
3,Afganistán,AFG,1753,0.000000e+00
4,Afganistán,AFG,1754,0.000000e+00
...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10
63100,Global,WLD,2018,3.682651e+10
63101,Global,WLD,2019,3.708256e+10
63102,Global,WLD,2020,3.526409e+10


#**Leyendo archivos Excel online google sheets**

link: https://docs.google.com/spreadsheets/d/1KZvjX5mRMd9OtXzgQQN3C6PJ16eA3Tve/edit?usp=sharing&ouid=104604062504128659121&rtpof=true&sd=true

id:1KZvjX5mRMd9OtXzgQQN3C6PJ16eA3Tve

/gviz/tq:conexcion entre colba y google sheet

?tqx=out:csv : formato de salida

&sheet: la hoja que quiero leer
si quieres otra sheet:

sheet_name = 'emisiones_percapita'

&sheet={sheet_name]

In [33]:
sheet_id = '1KZvjX5mRMd9OtXzgQQN3C6PJ16eA3Tve'
url5 = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'
datos4 = pd.read_csv(url5)
datos4.sample(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Año,Total
9299,Canadá,CAN,1801,3664.0
6960,Bosnia Y Herzegovina,BIH,1910,205539.0
18951,Zona Del Canal De Panamá,PCZ,1933,0.0
25968,Irak,IRQ,1878,0.0
37383,Marruecos,MAR,1869,0.0


Es hora de que pongas a prueba los conocimientos desarrollados durante la clase. Tenemos un link de Google Sheets que contiene datos importantes sobre las emisiones de dióxido de carbono en todo el mundo. El conjunto de datos se obtuvo de Kaggle y consta de las emisiones de CO2 per cápita de todos los países del mundo entre 1990 y 2019.

1. En este desafío, tu función es leer este link de Google Sheets y luego guardar el DataFrame obtenido en formato CSV. ¿Listo para comenzar?

link = https://docs.google.com/spreadsheets/d/1DVNjtDTjFomzpLCEbm9l9ODutqTnOffQ4-MZHpxfoYg/edit?usp=sharing

id = 1DVNjtDTjFomzpLCEbm9l9ODutqTnOffQ4-MZHpxfoYg

In [34]:
id_emisiones = '1DVNjtDTjFomzpLCEbm9l9ODutqTnOffQ4-MZHpxfoYg'
sheet_name = 'CO2_emission'
url6 = f'https://docs.google.com/spreadsheets/d/{id_emisiones}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [35]:
emisiones_co2 = pd.read_csv(url6)
emisiones_co2.head()

Unnamed: 0,Country Name,country_code,Region,Indicator Name,1990,1991,1992,1993,1994,1995,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2019.1
0,Aruba,ABW,Latin America & Caribbean,CO2 emissions (metric tons per capita),,,,,,,...,,,,,,,,,,
1,Afghanistan,AFG,South Asia,CO2 emissions (metric tons per capita),191745115.0,167681579.0,95957742.0,8472111.0,75545827.0,68467956.0,...,29650624.0,259295334.0,18562366.0,146235617.0,172896741.0,149789334.0,131694556.0,1632953.0,159824372.0,159824372.0
2,Angola,AGO,Sub-Saharan Africa,CO2 emissions (metric tons per capita),553661955.0,544538649.0,543557223.0,70898423.0,836804405.0,912141485.0,...,985522312.0,950695879.0,1036293852.0,1099779111.0,113504405.0,1031811348.0,81330073.0,777674934.0,792137069.0,792137069.0
3,Albania,ALB,Europe & Central Asia,CO2 emissions (metric tons per capita),1819541634.0,124281022.0,683699826.0,638307036.0,645355189.0,605436253.0,...,166942319.0,150324046.0,1533630039.0,1668337371.0,160377515.0,1557664358.0,1788786074.0,1782738948.0,169224832.0,169224832.0
4,Andorra,AND,Europe & Central Asia,CO2 emissions (metric tons per capita),7521831658.0,723537924.0,69630787.0,6724177518.0,6541578914.0,6733479486.0,...,5850886105.0,5944654173.0,5942800412.0,5807127723.0,6026181822.0,6080600282.0,6104133912.0,6362975399.0,6481217432.0,6481217432.0


In [36]:
emisiones_co2.to_csv('/content/drive/MyDrive/raw data/emisiones_co2.csv',index=False)

#**Leyendo archivos Json**

In [37]:
datos4 = pd.read_json('/content/drive/MyDrive/raw data/pacientes.json')
datos4.head()

Unnamed: 0,ID_paciente,Enfermedad_corazon,IMC,Fumador,Consumo_alcohol,AVC,Salud_fisica,Salud_mental,Dificultad_caminar,Sexo_biologico,Rango_edad,Raza,Diabetes,Actividad_fisica,Salud_general,Horas_sueño,Asma,Enfermedad_renal,Cancer_piel
0,0,No,16.6,Sí,No,No,3,30,No,Femenino,55-59,Blanca,Sí,Sí,Muy buena,5,Sí,No,Sí
1,1,No,20.34,No,No,Sí,0,0,No,Femenino,80 ó +,Blanca,No,Sí,Muy buena,7,No,No,No
2,2,No,26.58,Sí,No,No,20,30,No,Masculino,65-69,Blanca,Sí,Sí,Razonable,8,Sí,No,No
3,3,No,24.21,No,No,No,0,0,No,Femenino,75-79,Blanca,No,No,Buena,6,No,No,Sí
4,4,No,23.71,No,No,No,28,0,Sí,Femenino,40-44,Blanca,No,Sí,Muy buena,8,No,No,No


In [38]:
datos5 = pd.read_json('/content/drive/MyDrive/raw data/pacientes_2.json')
datos5.head()

Unnamed: 0,Investigación,Año,Pacientes
0,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '01', 'Rango_edad': '55-59', 'Sexo_biol..."
1,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '02', 'Rango_edad': '80 ó +', 'Sexo_bio..."
2,Indicadores clave de enfermedades cardíacas,2020,"{'ID': '03', 'Rango_edad': '65-69', 'Sexo_biol..."


##**Normalizando archivos JSON**

como extraer informacion cuando el archivo json tiene llaves anidadas, muy comun con los archivos Json, indicar la columna donde estan los problemas

In [39]:
df_normalizado = pd.json_normalize(datos5['Pacientes'])
df_normalizado.head()

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]"
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC]
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]"


La normalización de datos es un proceso importante en la ciencia de datos que tiene como objetivo organizar y estandarizar datos para facilitar el análisis y la comparación entre ellos. Cuando se trata de datos en formato JSON (JavaScript Object Notation - Notación de objetos JavaScript), es común que estén anidados, lo que puede dificultar su análisis y manipulación.

###**Normalizando un JSON simple**

In [42]:
datos7 = {'Análisis': 'Principales indicadores de enfermedad cardíaca', 'Año': 2020, 'Numero_Pacientes':3}


Para normalizar esta variable, podemos pasarla dentro de la función json_normalize y analizar el DataFrame obtenido:

In [44]:
df = pd.json_normalize(datos7)
df


Unnamed: 0,Análisis,Año,Numero_Pacientes
0,Principales indicadores de enfermedad cardíaca,2020,3


###**Normalizando un JSON con múltiples niveles**

Hay situaciones en las que el archivo JSON puede contener más de un objeto, como es el caso del siguiente ejemplo, en el que tenemos una lista, almacenada en la variable json_lista, que contiene dos objetos JSON:

In [45]:
json_lista = [
    { 'ID': '01', 'Intervalo_edad': '55-59', 'Sexo_biologico': 'femenino'},
    { 'ID': '02', 'Intervalo_edad': '80 ó +', 'Sexo_biologico': 'femenino'}
]


In [46]:
pd.json_normalize(json_lista)


Unnamed: 0,ID,Intervalo_edad,Sexo_biologico
0,1,55-59,femenino
1,2,80 ó +,femenino


###**Normalizando un JSON con una lista anidada**

Bueno, notamos que la función json_normalize() funciona muy bien en las situaciones anteriores, pero ¿qué pasa en otras situaciones?

Datos como un diccionario

Iniciemos observando la normalización cuando los datos son un diccionario. Tenemos un diccionario almacenado en la variable json_obj. Observe que en la llave “Salud” tenemos otro diccionario:

In [48]:
json_obj = {
    'ID': '01',
    'Intervalo_edad': '55-59',
    'Sexo_biologico': 'Femenino',
    'Salud': {'Dificultad_caminar': 'No',
              'Actividad_fisica': 'Sí',
              'IMC': 16.6,
              'Enfermedad_cardiaca': 'No',
          }
      }


In [49]:
pd.json_normalize(json_obj)

Unnamed: 0,ID,Intervalo_edad,Sexo_biologico,Salud.Dificultad_caminar,Salud.Actividad_fisica,Salud.IMC,Salud.Enfermedad_cardiaca
0,1,55-59,Femenino,No,Sí,16.6,No


In [51]:
json_list = [
    {
    'ID': '01',
    'Intervalo_edad': '55-59',
    'Sexo_biologico': 'Femenino',
    'Salud': {'Dificultad_caminar': 'No',
              'Actividad_fisica': 'Sí',
              'IMC': 16.6,
              'Enfermedad_cardiaca': 'No',
          }
      },
      {
          'ID': '02',
          'Intervalo_edad': '80 ó +',
          'Sexo_biologico': 'Femenino',
          'Salud': {'Dificultad_caminar': 'No',
                    'Actividad_fisica': 'Sí',
                    'IMC': 20.34,
                    'Enfermedad_cardiaca': 'Sí'}
       }
       ]


In [52]:
pd.json_normalize(json_list)

Unnamed: 0,ID,Intervalo_edad,Sexo_biologico,Salud.Dificultad_caminar,Salud.Actividad_fisica,Salud.IMC,Salud.Enfermedad_cardiaca
0,1,55-59,Femenino,No,Sí,16.6,No
1,2,80 ó +,Femenino,No,Sí,20.34,Sí


Podemos ver que todos los valores anidados dentro de cada registro de la lista se han convertido en columnas separadas. ¿Qué pasa con los datos que normalizamos en el video anterior? ¿Recuerdas cómo su normalización se hizo de otra manera?

Resumiendo, vamos a copiar los datos del archivo paciente_2.json y vamos a guardarlos en una variable llamada datos_dict.

In [53]:
datos_dict = {
  "Investigación": "Indicadores clave de enfermedades cardíacas",
  "Año": 2020,
  "Pacientes": [
    {
     "ID": "01",
      "Rango_edad": "55-59",
      "Sexo_biologico": "Mujer",
      "Raza": "Blanca",
      "IMC": 16.6,
      "Fumador": "Sí",
      "Consumo_alcohol": "No",
      "Salud_física": 3,
      "Salud_mental": 30,
      "Dificultad_caminar": "No",
      "Actividad_física": "Sí",
      "Salud_general": "Muy buena",
      "Horas_sueño": 5,
      "Problemas_salud": [
        "Diabetes",
        "Asma",
        "Cancer_piel"
      ]
    },
    {
      "ID": "02",
      "Rango_edad": "80 ó +",
      "Sexo_biologico": "Mujer",
      "Raza": "Blanca",
      "IMC": 20.34,
      "Fumador": "No",
      "Consumo_alcohol": "No",
      "Salud_física": 0,
      "Salud_mental": 0,
      "Dificultad_caminar": "No",
      "Actividad_física": "Sí",
      "Salud_general": "Muy buena",
      "Horas_sueño": 7,
      "Problemas_salud": [
        "AVC"
      ]
    },
    {
      "ID": "03",
      "Rango_edad": "65-69",
      "Sexo_biologico": "Masculino",
      "Raza": "Blanca",
      "IMC": 26.58,
      "Fumador": "Sí",
      "Consumo_alcohol": "No",
      "Salud_física": 20,
      "Salud_mental": 30,
      "Dificultad_caminar": "No",
      "Actividad_física": "Sí",
      "Salud_general": "Muy buena",
      "Horas_sueño": 8,
      "Problemas_salud": [
        "Diabetes",
        "Asma"
      ]
    }
  ]
}


In [54]:
pd.json_normalize(datos_dict)

Unnamed: 0,Investigación,Año,Pacientes
0,Indicadores clave de enfermedades cardíacas,2020,"[{'ID': '01', 'Rango_edad': '55-59', 'Sexo_bio..."


Podemos observar que nuestra lista anidada está colocada en una única columna Pacientes. Entonces, usaremos el siguiente código para normalizar los datos, especificando qué columna está anidada:

In [55]:
pd.json_normalize(datos_dict['Pacientes'])

Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]"
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC]
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]"


También podemos hacer esto usando el parámetro record_path como ['Pacientes']. Este parámetro se utiliza en la función pd.json_normalize() para especificar la ruta a los registros que deben ser normalizados en un DataFrame separado:

In [56]:
pd.json_normalize(datos_dict, record_path=['Pacientes'])


Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]"
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC]
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]"


In [58]:
pd.json_normalize(
    datos_dict,
    record_path =['Pacientes'],
    meta=['Investigación', 'Año']
)


Unnamed: 0,ID,Rango_edad,Sexo_biologico,Raza,IMC,Fumador,Consumo_alcohol,Salud_física,Salud_mental,Dificultad_caminar,Actividad_física,Salud_general,Horas_sueño,Problemas_salud,Investigación,Año
0,1,55-59,Mujer,Blanca,16.6,Sí,No,3,30,No,Sí,Muy buena,5,"[Diabetes, Asma, Cancer_piel]",Indicadores clave de enfermedades cardíacas,2020
1,2,80 ó +,Mujer,Blanca,20.34,No,No,0,0,No,Sí,Muy buena,7,[AVC],Indicadores clave de enfermedades cardíacas,2020
2,3,65-69,Masculino,Blanca,26.58,Sí,No,20,30,No,Sí,Muy buena,8,"[Diabetes, Asma]",Indicadores clave de enfermedades cardíacas,2020
