# Caso 1: Como la producción global de energía tiende a cambiar en el tiempo

<h3> Propósito </h3>

Para este caso se espera poder mejorar las habilidades en el uso de panda para usar funciones en series, así como manejar grandes datasets. Algunos de los métodos/funciones a utilizar son:

* `drop_duplicates()`
* `apply()`
* `value_counts()`
* `reset_index()`
* `fillna()`

### Contexto

La producción, el consumo, la importación y la exportación de electricidad a nivel mundial es compleja e interesante por diversas razones. Cada país debe realizar un seguimiento de una amplia gama de información para asegurarse de que producen suficiente electricidad, así como equilibrar estas necesidades con las implicaciones financieras a mediano plazo y las consecuencias ambientales.

Usted es un analista que trabaja en una organización no gubernamental (ONG) que informa sobre las tendencias energéticas globales. Su departamento ha obtenido un archivo CSV de gran tamaño, pero sus compañeros están intentando extraer información relevante de él utilizando Excel debido a su tamaño y formato. Para empeorar la situación, tiene miles de variables y no están seguros de cuáles son relevantes. Por lo tanto, se le ha hecho responsable de apoyar a su equipo proporcionándoles datos y conocimientos que pueden convertir en informes escritos.

La tarea consiste en responder las siguientes preguntas:

1. ¿Cuánta energía se produce?
2. ¿Cuánta energía se consume?
3. ¿Cuánta energía se importa y exporta?
4. ¿Cuánto de esta energía es renovable?

**Los datos necesarios para responder estas preguntas están almacenados en el archivo: all_energy_statistics.csv tomados del sitio http://data.un.org/Explorer.aspx**

In [1]:
# Importar librerías

import pandas as pd

In [2]:
# Leer conjuntos de datos 

df = pd.read_csv("data/all_energy_statistics.csv")

In [3]:
df["unit"].unique() # No son comparables las filas por que son de diferentes unidades

array(['Metric tons,  thousand', 'Terajoules', 'Kilowatts,  thousand',
       'Kilowatt-hours, million', 'Cubic metres, thousand', 'Metric Tons'],
      dtype=object)

En un primer ejerccio se puede explorar la cantidad de paises o regiones que se incluyen en el conjunto de datos, asemás de las categorías. Para esto se hace uso de la función drop_duplicates(), el cual elimina las valores repetidos en la serie que se aplique

In [4]:
# country_or_area
df["country_or_area"].drop_duplicates()

0                                          Austria
2                                          Belgium
8                                          Czechia
10                                         Finland
26                                          France
                            ...                   
212765                                      Tuvalu
212938                    United States Virgin Is.
213088                       Wallis and Futuna Is.
362966    Commonwealth of Independent States (CIS)
399113                         Antarctic Fisheries
Name: country_or_area, Length: 243, dtype: object

In [5]:
# category
df["category"].drop_duplicates()

0                                   additives_and_oxygenates
3018                                            animal_waste
4940                                              anthracite
9834                                       aviation_gasoline
28005                                                bagasse
                                 ...                        
1037653                                    total_electricity
1171569                                total_refinery_output
1177352                                              uranium
1178036    white_spirit_and_special_boiling_point_industr...
1188115                                     wind_electricity
Name: category, Length: 71, dtype: object

Se evidencia que se cuentan con 243 regiones/países y con 71 categorías únicas.También es posible definir la ventana de tiempo para los datos registrados (1990-2014)

In [6]:
print(df["year"].min())
print(df["year"].max())

1990
2014


### Uso de funciones para procesar texto

La columna de commodity_transaction puede resultar algo caótica al usar letras en mayúsculas y símbolos, por lo que se hace necesario establecer un estándar para realizar tareas como: buscar las filas con la plabra producition. 

Una primera manera de estandarizar es pasar todo el texto a minúsculas mediante el método lower sobre series de tipo str. Cunado se llama str.lower() sobre una Serie, el resultado es otra serie en la cual todos sus valores están en minúscula

In [7]:
df["commodity_transaction"].str.lower()

0           additives and oxygenates - exports
1           additives and oxygenates - exports
2           additives and oxygenates - exports
3           additives and oxygenates - exports
4           additives and oxygenates - exports
                          ...                 
1189477    electricity - total wind production
1189478    electricity - total wind production
1189479    electricity - total wind production
1189480    electricity - total wind production
1189481    electricity - total wind production
Name: commodity_transaction, Length: 1189482, dtype: object

En la columna de commodity_transaction se podía ver que habían símbolos como - para separar las palabras. Mediante pandas es posible contar el número de veces que se repite este símbolo en cada una de las diferentes categorías 

In [8]:
# Primero se eliminan las filas repetidas, se cuentas cuantas veces se reipte el símbolo - y se muestra la frecuencia en que 
# aparecen

df["commodity_transaction"].drop_duplicates().str.count("-").value_counts()


1    1845
2     538
0      57
3      12
Name: commodity_transaction, dtype: int64

## Ejercicio 1

Filtre el conjunto de datos a aquellas descripciones que no contienen el símbolo -

In [9]:
df["commodity_transaction"][df["commodity_transaction"].str.count("-")==0].drop_duplicates()

533715                  From chemical sources – Autoproducer
533859     From chemical sources – Autoproducer – CHP plants
533920     From chemical sources – Autoproducer – Heat pl...
534028                 From combustible fuels – Autoproducer
534664     From combustible fuels – Autoproducer – CHP pl...
535224     From combustible fuels – Autoproducer – Heat p...
535714                From combustible fuels – Main activity
536846     From combustible fuels – Main activity – CHP p...
537854     From combustible fuels – Main activity – Heat ...
538705                 From electric boilers – Main activity
538887                       From heat pumps – Main activity
539022                     From other sources – Autoproducer
539148        From other sources – Autoproducer – CHP plants
539186       From other sources – Autoproducer – Heat plants
539281                    From other sources – Main activity
539359       From other sources – Main activity – CHP plants
539392      From other s

A primera vista se podría pensar que no se cumple la condición, sin embargo, en estas descripciones se hacen uso tanto de guiones "-" (hyphen) y guiones extendidos "—" (dash). Para lidiar con este problema se podría reemplazar todo por guiones con la función str.replace()

In [12]:
df["clean_transaction"] = df["commodity_transaction"].str.lower().str.replace("—", "-")
df["clean_transaction"].unique()

array(['additives and oxygenates - exports',
       'additives and oxygenates - imports',
       'additives and oxygenates - production', ...,
       'white spirit and special boiling point industrial spirits - transformation',
       'white spirit and special boiling point industrial spirits - transformation in petrochemical plants',
       'electricity - total wind production'], dtype=object)

### Selección de filas de interés

Es posible para este conjunto de datos realizar filtros según las palabras que hayan presentes en las descripciones de acuerdo a nuestro intereses. Por ejemplo, se filtran aquellas descripciones donde este contenida la palabra import

In [15]:
df["clean_transaction"][df["clean_transaction"].str.contains("import")].drop_duplicates()

1108326    electricity - imports
Name: clean_transaction, dtype: object

In [16]:
df.head()

Unnamed: 0,country_or_area,commodity_transaction,year,unit,quantity,quantity_footnotes,category,clean_transaction
0,Austria,Additives and Oxygenates - Exports,1996,"Metric tons, thousand",5.0,,additives_and_oxygenates,additives and oxygenates - exports
1,Austria,Additives and Oxygenates - Exports,1995,"Metric tons, thousand",17.0,,additives_and_oxygenates,additives and oxygenates - exports
2,Belgium,Additives and Oxygenates - Exports,2014,"Metric tons, thousand",0.0,,additives_and_oxygenates,additives and oxygenates - exports
3,Belgium,Additives and Oxygenates - Exports,2013,"Metric tons, thousand",0.0,,additives_and_oxygenates,additives and oxygenates - exports
4,Belgium,Additives and Oxygenates - Exports,2012,"Metric tons, thousand",35.0,,additives_and_oxygenates,additives and oxygenates - exports


Si bien resulta útil poder filtrar por filas, también es de interés poder estudiar con mayor detalle los valores de energías renovables para la columna de `commodity_transaction`

In [23]:
# Se crea una lista de energías renovables que son de interés para el estudio

keep_values =  [
        "Electricity - Gross demand",
        "Electricity - Gross production",
        "Electricity - imports",
        "Electricity - exports",
        "Electricity - total hydro production",
        "Electricity - total wind production",
        "Electricity - total solar production",
        "Electricity - total geothermal production",
        "Electricity - total tide, wave production"]

# Filtrar solamente para energías renovables

df_filtered = df[df["commodity_transaction"].isin(keep_values)]

# Se realiza un pivote sobre la columna commodity, es decir, los valores que era filas lo pasa a columna manteniendo solo el
# valor de quantity

df_countries = pd.pivot_table(
    df_filtered,
    values="quantity",
    index=["country_or_area", "year"],
    columns="commodity_transaction",
)

df_countries.head(3)

Unnamed: 0_level_0,commodity_transaction,Electricity - Gross demand,Electricity - Gross production,Electricity - exports,Electricity - imports,Electricity - total geothermal production,Electricity - total hydro production,Electricity - total solar production,"Electricity - total tide, wave production",Electricity - total wind production
country_or_area,year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Afghanistan,1990,1055.0,1128.0,,,,764.0,,,
Afghanistan,1991,945.0,1015.0,,,,690.0,,,
Afghanistan,1992,789.0,703.0,,131.0,,478.0,,,


In [24]:
# Modificar el nombre de las columnas

df_countries.columns = ["demand","production","exports","imports","geothermal","hydro","solar","tide","wind"]

df_countries

Unnamed: 0_level_0,Unnamed: 1_level_0,demand,production,exports,imports,geothermal,hydro,solar,tide,wind
country_or_area,year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Afghanistan,1990,1055.0,1128.0,,,,764.0,,,
Afghanistan,1991,945.0,1015.0,,,,690.0,,,
Afghanistan,1992,789.0,703.0,,131.0,,478.0,,,
Afghanistan,1993,780.0,695.0,,130.0,,475.0,,,
Afghanistan,1994,770.0,687.0,,128.0,,472.0,,,
...,...,...,...,...,...,...,...,...,...,...
Zimbabwe,2010,9317.3,8602.9,694.4,1681.7,,5762.8,,,
Zimbabwe,2011,9645.5,9177.2,988.2,1578.7,,5201.8,,,
Zimbabwe,2012,9425.2,9148.6,700.9,1076.1,,5387.3,,,
Zimbabwe,2013,9919.7,9498.8,1189.3,1722.0,,4981.8,,,


Posiblemente deseamos conocer por orden cuales han sido los países con mayor producción. Esta tarea es posible con el método `sort_values()` tomando como argumento un by 

In [25]:
df_countries = df_countries.sort_values(by="production", ascending=False) # Ordena de manera descendente por producción
df_countries.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,demand,production,exports,imports,geothermal,hydro,solar,tide,wind
country_or_area,year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
China,2014,5219096.0,5649583.4,18158.0,6750.0,,1064337.0,15189.0,,156078.0
China,2013,5016127.0,5431637.4,18669.0,7438.0,,920291.0,5564.0,,141197.0
China,2012,4609729.0,4987553.0,17653.0,6874.0,,872107.0,,,95978.0
China,2011,4319132.0,4713019.0,19307.0,6562.0,,698945.0,,,70331.0
United States,2010,4153664.0,4378422.0,19107.0,45083.0,17577.0,286333.0,3934.0,,95148.0


En caso de desear dejar los dos niveles de los índices ("country_or_area", "year") se usa el método `reset_index()`

In [26]:
df_countries = df_countries.reset_index()
df_countries.head()

Unnamed: 0,country_or_area,year,demand,production,exports,imports,geothermal,hydro,solar,tide,wind
0,China,2014,5219096.0,5649583.4,18158.0,6750.0,,1064337.0,15189.0,,156078.0
1,China,2013,5016127.0,5431637.4,18669.0,7438.0,,920291.0,5564.0,,141197.0
2,China,2012,4609729.0,4987553.0,17653.0,6874.0,,872107.0,,,95978.0
3,China,2011,4319132.0,4713019.0,19307.0,6562.0,,698945.0,,,70331.0
4,United States,2010,4153664.0,4378422.0,19107.0,45083.0,17577.0,286333.0,3934.0,,95148.0


Este nuevo dataframe resulta ser más amigable para su uso al contener información específica para los países por año sobre la variable "quantity"

In [29]:
df_countries["year"].value_counts() # Alguno países dejaron de reportar información, posiblemente dejaron de existir

2012    229
2013    229
2014    229
2011    226
2010    226
2009    226
2007    226
2008    226
2006    225
2005    225
2002    224
2004    224
2003    224
2001    221
1994    220
1996    220
1995    220
1999    220
1997    220
2000    220
1998    220
1992    219
1993    219
1991    197
1990    197
Name: year, dtype: int64

## Exploración del crecimiento de la producción de energías y energías renovables

Hasta el momento se ha filtrado la cantidad total de energía renovable producida por cada paísy cada una de sus fuentes. Ahora se va a buscar agregar información adicional en búsqueda de patrones interesantes para nuestro análisis

### Ejercicio 2

Reemplazar los valores perdidos en el DataFrame filtrado con valores de 0

In [31]:
df_countries = df_countries.fillna(0)