In [30]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

<h1>Exploratory Data Analysis</h1>
<p>In this section, we will conduct an analysis to identify correlations, anomalies, and statistics that reveal patterns or trends.</p>
<p>This step is essential for any subsequent analysis, as it provides an initial understanding of our data.</p>
<p>Exploratory Data Analysis (EDA) allows us to understand the structure, quality, and main characteristics of the data before applying models or making decisions. Through visualizations, descriptive statistics, and the detection of outliers, we can identify potential issues, relationships between variables, and opportunities to improve the analysis.</p>
<p>We will use tools such as pandas, matplotlib, and seaborn to explore the data both visually and numerically, facilitating interpretation and informed decision-making in the

<h5>Let's start by analyzing the main dataset: co2_data_clean</h5>

In [31]:
df_co2_data = pd.read_csv('https://raw.githubusercontent.com/Nico22724/Proyecto-_Medioambiental/refs/heads/main/Datasets/Datasets%20Cleaned/co2_data_clean.csv')

<p><strong>1. country:</strong> El nombre del país al que corresponden los datos.</p>
<p><strong>2. year:</strong> El año en el que se recopilaron los datos.</p>
<p><strong>3. iso_code:</strong> El código ISO del país, una forma estándar de identificar países (por ejemplo, "US" para Estados Unidos).</p>
<p><strong>4. population:</strong> La población total del país en ese año.</p>
<p><strong>5. gdp:</strong> El Producto Interno Bruto (PIB) total del país en el año dado, generalmente medido en términos monetarios.</p>
<p><strong>6. cement_co2:</strong> Las emisiones de CO2 atribuibles al sector del cemento en el país.</p>
<p><strong>7. cement_co2_per_capita:</strong> Las emisiones de CO2 del sector del cemento por persona en el país.</p>
<p><strong>8. co2:</strong> Las emisiones totales de CO2 del país.</p>
<p><strong>9. co2_including_luc:</strong> Las emisiones totales de CO2 incluyendo el uso de la tierra y los cambios en el uso del suelo (Land Use Change, LUC).</p>
<p><strong>10. co2_including_luc_per_capita:</strong> Las emisiones de CO2 per cápita, incluyendo el uso de la tierra y los cambios en el uso del suelo.</p>
<p><strong>11. co2_including_luc_per_gdp:</strong> Las emisiones de CO2 por unidad de PIB, considerando también el uso de la tierra y cambios en el uso del suelo.</p>
<p><strong>12. co2_including_luc_per_unit_energy:</strong> Las emisiones de CO2 por unidad de energía consumida, con LUC incluido.</p>
<p><strong>13. co2_per_capita:</strong> Las emisiones de CO2 per cápita (por persona) del país.</p>
<p><strong>14. co2_per_gdp:</strong> Las emisiones de CO2 por unidad de PIB del país.</p>
<p><strong>15. co2_per_unit_energy:</strong> Las emisiones de CO2 por unidad de energía consumida en el país.</p>
<p><strong>16. coal_co2:</strong> Las emisiones de CO2 generadas por el uso del carbón en el país.</p>
<p><strong>17. coal_co2_per_capita:</strong> Las emisiones de CO2 generadas por el uso del carbón por persona en el país.</p>
<p><strong>18. consumption_co2:</strong> Las emisiones de CO2 asociadas con el consumo de energía del país (en lugar de la producción).</p>
<p><strong>19. consumption_co2_per_capita:</strong> Las emisiones de CO2 asociadas con el consumo de energía per cápita.</p>
<p><strong>20. consumption_co2_per_gdp:</strong> Las emisiones de CO2 asociadas con el consumo de energía por unidad de PIB.</p>
<p><strong>21. energy_per_capita:</strong> La cantidad de energía consumida per cápita en el país.</p>
<p><strong>22. energy_per_gdp:</strong> La cantidad de energía consumida por cada unidad de PIB.</p>
<p><strong>23. flaring_co2:</strong> Las emisiones de CO2 generadas por la quema de gas (flaring).</p>
<p><strong>24. flaring_co2_per_capita:</strong> Las emisiones de CO2 por flaring per cápita.</p>
<p><strong>25. gas_co2:</strong> Las emisiones de CO2 generadas por el uso de gas.</p>
<p><strong>26. gas_co2_per_capita:</strong> Las emisiones de CO2 generadas por el uso de gas per cápita.</p>
<p><strong>27. land_use_change_co2:</strong> Las emisiones de CO2 asociadas con el cambio en el uso del suelo.</p>
<p><strong>28. land_use_change_co2_per_capita:</strong> Las emisiones de CO2 del cambio de uso del suelo per cápita.</p>
<p><strong>29. oil_co2:</strong> Las emisiones de CO2 generadas por el uso del petróleo en el país.</p>
<p><strong>30. oil_co2_per_capita:</strong> Las emisiones de CO2 generadas por el uso del petróleo per cápita.</p>
<p><strong>31. other_co2_per_capita:</strong> Otras emisiones de CO2 per cápita que no están relacionadas con las fuentes mencionadas específicamente (carbón, gas, petróleo, etc.).</p>
<p><strong>32. other_industry_co2:</strong> Las emisiones de CO2 generadas por otros sectores industriales no mencionados específicamente en las demás categorías.</p>
<p><strong>33. primary_energy_consumption:</strong> El consumo total de energía primaria (energía no procesada, como petróleo, gas, carbón, etc.).</p>
<p><strong>34. trade_co2:</strong> Las emisiones de CO2 asociadas con el comercio internacional de productos energéticos.</p>
<p><strong>35. trade_co2_share:</strong> La proporción de las emisiones de CO2 relacionadas con el comercio en comparación con las emisiones totales de CO2.</p>


In [32]:
df_co2_data.groupby('country')['consumption_co2'].sum().sort_values(ascending=False)

country
World                    1026192.957
High-income countries     537273.128
Non-OECD (GCP)            486510.404
OECD (GCP)                471568.761
Asia                      421283.808
                            ...     
Uzbekistan                     0.000
Vanuatu                        0.000
Vatican                        0.000
Wallis and Futuna              0.000
Yemen                          0.000
Name: consumption_co2, Length: 255, dtype: float64

In [33]:
# Importing pycountry for country data 
import pycountry

paises_validos = [country.name for country in pycountry.countries] # List of valid country names
df_co2_data = df_co2_data[df_co2_data['country'].isin(paises_validos)] # Filter the DataFrame to include only valid countries

In [38]:
df_co2_data.groupby('country')['consumption_co2'].sum().sort_values(ascending=False)

country
China                193442.977
United States        191985.754
Japan                 46978.476
India                 45921.890
Germany               33413.995
                        ...    
Turkmenistan              0.000
Vanuatu                   0.000
Uzbekistan                0.000
Yemen                     0.000
Wallis and Futuna         0.000
Name: consumption_co2, Length: 193, dtype: float64