Importamos la libreria de Pandas

In [1]:
import pandas as pd

Establecemos un formato de despliegue de dos decimales para los valores decimales o _float_

In [2]:
pd.options.display.float_format = '{:,.2f}'.format

## Primer Archivo de Muestra

Cargamos nuestro un archivo de Excel **sin formato**

In [None]:
datos = pd.read_excel("datos.xlsx")

Mostramos los datos del _DataFrame_ en nuestra variable **datos**

In [None]:
datos.head()

## Segundo Archivo de Muestra

Cargamos un archivo de Excel **con formato** de un reporte de **_Generación de Desperdicios por País_** extraído de https://stats.oecd.org 

Donde indicamos que vamos a cargar unicamente los datos de la hoja "**OECD.Stat export**", además omitimos (_skiprows_) las primeras 4 filas, y las últimas (_skipfooter_) 4 filas

In [None]:
datos = pd.read_excel("WasteBySector.xlsx",
                       sheet_name='OECD.Stat export',
                       skiprows=4,
                       skipfooter=4)

Mostramos los datos del _DataFrame_ asignado a la variable **datos**

In [None]:
datos.head(30)

a la función de la carga de Excel se le agrega como parámetro las columnas que deseamos cargar, en nuestro caso es la columna **A**, y las columnas de la **C** hasta la **K**

In [3]:
datos = pd.read_excel("WasteBySector.xlsx",
                       sheet_name='OECD.Stat export',
                       skiprows=4,
                       skipfooter=4,
                       usecols="A,C:K")

Mostramos los datos del _DataFrame_ asignado a la variable **datos**

In [None]:
datos.head()

Cambiamos el nombre de la columna **Year** (año) por **Country** (País)

In [4]:
datos.rename(columns={'Year':'Country'},inplace=True)

Mostramos los datos del _DataFrame_ asignado a la variable **datos**

In [None]:
datos.head()

Eliminamos la primera fila y precerbamos el cambio en el _DataFrame_

In [5]:
datos.drop(index=0,axis="index",inplace=True)

Mostramos los datos del _DataFrame_ asignado a la variable **datos**

In [6]:
datos.head()

Unnamed: 0,Country,2004,2006,2008,2010,2012,2014,2015,2016,2018
1,Austria,53020.95,54286.6,56308.77,46799.58,48045.09,55868.3,..,61225.04,65666.13
2,Belgium,52809.34,59351.72,48621.91,61345.8,53839.47,57965.39,..,63152.38,67613.23
3,Czech Republic,29275.74,24745.75,25419.7,23757.57,23171.36,23394.96,..,25381.43,27913.45
4,Denmark,12588.95,14703.14,15155.21,16217.74,16713.82,20808.84,..,20981.93,21445.9
5,Estonia,20860.68,18932.9,19583.86,19000.2,21992.34,21804.04,..,24277.88,23185.58


Restablecemos el valor del índice del _DataFrame_ de Pandas y precerbamos el cambio en la variable actual

In [7]:
datos.reset_index(drop=True,inplace=True)

Mostramos los datos del _DataFrame_ asignado a la variable **datos**

In [8]:
datos.head()

Unnamed: 0,Country,2004,2006,2008,2010,2012,2014,2015,2016,2018
0,Austria,53020.95,54286.6,56308.77,46799.58,48045.09,55868.3,..,61225.04,65666.13
1,Belgium,52809.34,59351.72,48621.91,61345.8,53839.47,57965.39,..,63152.38,67613.23
2,Czech Republic,29275.74,24745.75,25419.7,23757.57,23171.36,23394.96,..,25381.43,27913.45
3,Denmark,12588.95,14703.14,15155.21,16217.74,16713.82,20808.84,..,20981.93,21445.9
4,Estonia,20860.68,18932.9,19583.86,19000.2,21992.34,21804.04,..,24277.88,23185.58


Mostramos la información del _DataFrame_

In [9]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Country  27 non-null     object 
 1   2004     27 non-null     object 
 2   2006     27 non-null     object 
 3   2008     27 non-null     object 
 4   2010     27 non-null     object 
 5   2012     27 non-null     object 
 6   2014     27 non-null     object 
 7   2015     27 non-null     object 
 8   2016     27 non-null     float64
 9   2018     27 non-null     object 
dtypes: float64(1), object(9)
memory usage: 2.2+ KB


Convertimos los valores numericos a Float. En este caso son las columnas de los años

In [10]:
for col in datos.columns[1:]:
    datos[col] = pd.to_numeric(datos[col], errors='coerce')

Mostramos nuevamente la información de las columnas para corroborar que el tipo de dato se haya cambiado.

In [11]:
  datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Country  27 non-null     object 
 1   2004     26 non-null     float64
 2   2006     25 non-null     float64
 3   2008     26 non-null     float64
 4   2010     26 non-null     float64
 5   2012     26 non-null     float64
 6   2014     26 non-null     float64
 7   2015     1 non-null      float64
 8   2016     27 non-null     float64
 9   2018     26 non-null     float64
dtypes: float64(9), object(1)
memory usage: 2.2+ KB


Mostramos los datos del _DataFrame_ asignado a la variable **datos**

Desplegando la información dentro del DataFrame

In [13]:
datos.head(30)

Unnamed: 0,Country,2004,2006,2008,2010,2012,2014,2015,2016,2018
0,Austria,53020.95,54286.6,56308.77,46799.58,48045.09,55868.3,,61225.04,65666.13
1,Belgium,52809.34,59351.72,48621.91,61345.8,53839.47,57965.39,,63152.38,67613.23
2,Czech Republic,29275.74,24745.75,25419.7,23757.57,23171.36,23394.96,,25381.43,27913.45
3,Denmark,12588.95,14703.14,15155.21,16217.74,16713.82,20808.84,,20981.93,21445.9
4,Estonia,20860.68,18932.9,19583.86,19000.2,21992.34,21804.04,,24277.88,23185.58
5,Finland,69708.48,72205.48,81792.85,104336.9,91824.2,95969.89,,122869.2,128195.3
6,France,296580.9,312297.8,345002.2,355081.3,344731.9,324463.0,,322685.3,342387.9
7,Germany,364021.9,363786.1,372796.3,363545.0,368022.2,387504.3,,400071.7,405523.6
8,Greece,33346.96,51324.66,68643.96,70432.7,72328.28,69758.87,,72332.35,45592.6
9,Hungary,24660.92,22287.48,16949.2,16735.42,16310.15,16650.64,,15938.08,18369.59
