#**PROYECTO FINAL TECNOLOCHICAS BEDU**
Análisis del Cambio Climatico
---



Por:

*   Hannia Estefani Chable Gomez
*   Frida Alejandra Perez Xequeb  
*   Gemma Isela Castañeda Hernández
*   Gemma Melanie Sánchez Herrera
*   Gretel Dairen Zavaleta Moctezuma
*   Gladis Lucero Rodríguez Sánchez





# **Descripición del problema**



El cambio climatico representa uno de los desafíos globales más críticos en la era tecnológica actual, siendo el incremento histórico de la temperatura global la evidencia más contundente de este fénomeno. Este proyecto se enfoca en analizar la disparidad potencial en el impacto del calentamiento global


---



# **Hipotesis**

Existe una disparidad positiva; es decir, la tasa de aceleración del calentamiento en el siglo XXI es más añta en las naciones de bajos ingresos en comparación con las de altos ingresos


---



# **Objetivos**

Evaluar y cuantificar la diferencia en la tendencia de calentamiento entre países de altos y bahos ingresos desde el año 2000 hasta el 2019, utilizando métricas de aceleración de la temaperatura.


---



# **Dataset utilizado para el proyecto**

Link del dataset de Kaggel: Temperatura change https://www.kaggle.com/datasets/sevgisarac/temperature-change

Tamaño


*   Número de Columnas (Variables): 9,657
*   Número de Filas (Registros/Observaciones): 66



In [None]:
#primero vamos a importar las bibliotecas necesarias
import pandas as pd
import numpy as np
from functools import reduce

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Ruta de acceso Gretel:
/content/drive/MyDrive/tecnolochicas_bedu (1)/Environment_Temperature_change_E_All_Data_NOFLAG.csv

otra ruta:
/content/drive/MyDrive/BEDU/Environment_Temperature_change_E_All_Data_NOFLAG.csv

In [None]:
df = pd.read_csv('/content/drive/MyDrive/tecnolochicas_bedu/Environment_Temperature_change_E_All_Data_NOFLAG.csv', encoding='latin-1', encoding_errors='ignore') #encoding_errors= ignore hace que no se detenga si hay caracteres raros



In [None]:
df_copia = df.copy() #Copia segura para limpiar y manipular

# **Exploración de datos**

In [None]:
df.shape #tamaño total de datos, filas y columnas

(9656, 66)

In [None]:
df.ndim #dimensiones de la matriz

2

In [None]:
df.info() #Tipos de datos, contamos con enteros, object (texto) y flotantes.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9656 entries, 0 to 9655
Data columns (total 66 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Area Code     9656 non-null   int64  
 1   Area          9656 non-null   object 
 2   Months Code   9656 non-null   int64  
 3   Months        9656 non-null   object 
 4   Element Code  9656 non-null   int64  
 5   Element       9656 non-null   object 
 6   Unit          9656 non-null   object 
 7   Y1961         8287 non-null   float64
 8   Y1962         8322 non-null   float64
 9   Y1963         8294 non-null   float64
 10  Y1964         8252 non-null   float64
 11  Y1965         8281 non-null   float64
 12  Y1966         8364 non-null   float64
 13  Y1967         8347 non-null   float64
 14  Y1968         8345 non-null   float64
 15  Y1969         8326 non-null   float64
 16  Y1970         8308 non-null   float64
 17  Y1971         8303 non-null   float64
 18  Y1972         8323 non-null 

In [None]:
# Convertir cambios de temperatura de Centigrados a Fahrenheit por año
temp_df = df_copia.copy()
temp_df = temp_df[(temp_df['Area Code'] >= 2) & (temp_df['Area Code'] <= 5873)].copy()
for col in [col for col in df_copia.columns if col.startswith('Y')]:
    temp_df[f'{col}_F'] = temp_df[col].apply(lambda c: c * 9/5) + 32
print(temp_df[['Area', 'Area Code', 'Months'] + [col for col in temp_df.columns if col.endswith('_F')]].sample(15))

                                         Area  Area Code       Months  \
2597              Falkland Islands (Malvinas)         65         July   
562                                   Bahrain         13      October   
3774                                  Jamaica        109      January   
9576                        Annex I countries       5848     December   
9547  Net Food Importing Developing Countries       5817  MarAprMay   
1327                 Central African Republic         37      January   
234                                  Anguilla        258  SepOctNov   
1391                                     Chad         39  SepOctNov   
3864                                   Jordan        112     December   
2178                                 Djibouti         72     February   
9610                    Non-Annex I countries       5849     December   
7645                             Turkmenistan        213  JunJulAug   
4674                                Mauritius      

# **Preparación y Limpieza del DataFrame para el análisis**

Convertir datos identificadores escritos como enteros a texto

In [None]:
# Definir de la lista de columnas de código que queremos convertir de entero (int64) a texto (str u object en Pandas)
columnas_de_codigo = ['Area Code', 'Months Code', 'Element Code']

In [None]:
# Conversión a tipo 'str' (texto) en el DataFrame de análisis
df_copia[columnas_de_codigo] = df_copia[columnas_de_codigo].astype(str)

# **Sustituir datos vacíos a NaN**

In [None]:
# Definir las columnas que tienen celdas vacías (desde la 7 hasta el final)
columnas_datos_vacios = df_copia.columns[7:]

In [None]:
 # Sustituir en la copia las celdas vacías por np.nan
df_copia[columnas_datos_vacios] = df_copia[columnas_datos_vacios].replace(to_replace=['',' '], value=np.nan, regex=False)

In [None]:
# Contar NaN en cada columna
nan_por_columna = df_copia.isna().sum()
print(f'NaNs por columna: \n{nan_por_columna}\n')

print("-"*20)

# Contar NaN en cada fila
nan_por_fila = df_copia.isna().sum(axis=1)
print(f'NaNs por fila: \n{nan_por_fila}\n')

NaNs por columna: 
Area Code          0
Area               0
Months Code        0
Months             0
Element Code       0
                ... 
Y2015           1295
Y2016           1308
Y2017           1290
Y2018           1307
Y2019           1291
Length: 66, dtype: int64

--------------------
NaNs por fila: 
0       0
1       0
2       0
3       0
4       0
       ..
9651    0
9652    0
9653    0
9654    0
9655    0
Length: 9656, dtype: int64



In [None]:
# Porcentaje de NaN en cada columna, checamos que no sobrepase el 15%
porcen_nan_por_columna = df_copia.isna().sum() / len(df_copia) * 100
print(f'% NaNs por columna: \n{porcen_nan_por_columna}\n')

% NaNs por columna: 
Area Code        0.000000
Area             0.000000
Months Code      0.000000
Months           0.000000
Element Code     0.000000
                  ...    
Y2015           13.411350
Y2016           13.545982
Y2017           13.359569
Y2018           13.535626
Y2019           13.369925
Length: 66, dtype: float64



# **Eliminación de valores faltantes**

In [None]:
# Copia del dataframe para manipulaciones seguras
df_clean = df_copia.copy()
df_clean.head()

Unnamed: 0,Area Code,Area,Months Code,Months,Element Code,Element,Unit,Y1961,Y1962,Y1963,...,Y2010,Y2011,Y2012,Y2013,Y2014,Y2015,Y2016,Y2017,Y2018,Y2019
0,2,Afghanistan,7001,January,7271,Temperature change,°C,0.777,0.062,2.744,...,3.601,1.179,-0.583,1.233,1.755,1.943,3.416,1.201,1.996,2.951
1,2,Afghanistan,7001,January,6078,Standard Deviation,°C,1.95,1.95,1.95,...,1.95,1.95,1.95,1.95,1.95,1.95,1.95,1.95,1.95,1.95
2,2,Afghanistan,7002,February,7271,Temperature change,°C,-1.743,2.465,3.919,...,1.212,0.321,-3.201,1.494,-3.187,2.699,2.251,-0.323,2.705,0.086
3,2,Afghanistan,7002,February,6078,Standard Deviation,°C,2.597,2.597,2.597,...,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597
4,2,Afghanistan,7003,March,7271,Temperature change,°C,0.516,1.336,0.403,...,3.39,0.748,-0.527,2.246,-0.076,-0.497,2.296,0.834,4.418,0.234


In [None]:
# Eliminar filas donde cualquier valor es NaN
df_clean.dropna(axis=0, how='any')

Unnamed: 0,Area Code,Area,Months Code,Months,Element Code,Element,Unit,Y1961,Y1962,Y1963,...,Y2010,Y2011,Y2012,Y2013,Y2014,Y2015,Y2016,Y2017,Y2018,Y2019
0,2,Afghanistan,7001,January,7271,Temperature change,°C,0.777,0.062,2.744,...,3.601,1.179,-0.583,1.233,1.755,1.943,3.416,1.201,1.996,2.951
1,2,Afghanistan,7001,January,6078,Standard Deviation,°C,1.950,1.950,1.950,...,1.950,1.950,1.950,1.950,1.950,1.950,1.950,1.950,1.950,1.950
2,2,Afghanistan,7002,February,7271,Temperature change,°C,-1.743,2.465,3.919,...,1.212,0.321,-3.201,1.494,-3.187,2.699,2.251,-0.323,2.705,0.086
3,2,Afghanistan,7002,February,6078,Standard Deviation,°C,2.597,2.597,2.597,...,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597
4,2,Afghanistan,7003,March,7271,Temperature change,°C,0.516,1.336,0.403,...,3.390,0.748,-0.527,2.246,-0.076,-0.497,2.296,0.834,4.418,0.234
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9651,5873,OECD,7018,JunJulAug,6078,Standard Deviation,°C,0.247,0.247,0.247,...,0.247,0.247,0.247,0.247,0.247,0.247,0.247,0.247,0.247,0.247
9652,5873,OECD,7019,SepOctNov,7271,Temperature change,°C,0.036,0.461,0.665,...,0.958,1.106,0.885,1.041,0.999,1.670,1.535,1.194,0.581,1.233
9653,5873,OECD,7019,SepOctNov,6078,Standard Deviation,°C,0.378,0.378,0.378,...,0.378,0.378,0.378,0.378,0.378,0.378,0.378,0.378,0.378,0.378
9654,5873,OECD,7020,Meteorological year,7271,Temperature change,°C,0.165,-0.009,0.134,...,1.246,0.805,1.274,0.991,0.811,1.282,1.850,1.349,1.088,1.297


# **Transformación de datos**

In [None]:
#Eliminar la "Y" en los años para que ahora sea más legible por año cada encabezado
df_clean.rename(
    columns={col: col[1:] if col.startswith("Y") else col for col in df_clean.columns},
    inplace=True
)
df_clean.head()

Unnamed: 0,Area Code,Area,Months Code,Months,Element Code,Element,Unit,1961,1962,1963,...,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
0,2,Afghanistan,7001,January,7271,Temperature change,°C,0.777,0.062,2.744,...,3.601,1.179,-0.583,1.233,1.755,1.943,3.416,1.201,1.996,2.951
1,2,Afghanistan,7001,January,6078,Standard Deviation,°C,1.95,1.95,1.95,...,1.95,1.95,1.95,1.95,1.95,1.95,1.95,1.95,1.95,1.95
2,2,Afghanistan,7002,February,7271,Temperature change,°C,-1.743,2.465,3.919,...,1.212,0.321,-3.201,1.494,-3.187,2.699,2.251,-0.323,2.705,0.086
3,2,Afghanistan,7002,February,6078,Standard Deviation,°C,2.597,2.597,2.597,...,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597
4,2,Afghanistan,7003,March,7271,Temperature change,°C,0.516,1.336,0.403,...,3.39,0.748,-0.527,2.246,-0.076,-0.497,2.296,0.834,4.418,0.234


In [None]:
#Traducir al español los encabezados de las columnas

traduccion_encabezados = {
    "Area Code": "Código de área",
    "Area": "Área",
    "Months Code": "Código de mes",
    "Months": "Mes",
    "Element Code": "Código de elemento",
    "Element": "Elemento",
    "Unit": "Unidad"
}

df_clean.rename(columns=traduccion_encabezados, inplace=True)
df_clean.head()

Unnamed: 0,Código de área,Área,Código de mes,Mes,Código de elemento,Elemento,Unidad,1961,1962,1963,...,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
0,2,Afghanistan,7001,January,7271,Temperature change,°C,0.777,0.062,2.744,...,3.601,1.179,-0.583,1.233,1.755,1.943,3.416,1.201,1.996,2.951
1,2,Afghanistan,7001,January,6078,Standard Deviation,°C,1.95,1.95,1.95,...,1.95,1.95,1.95,1.95,1.95,1.95,1.95,1.95,1.95,1.95
2,2,Afghanistan,7002,February,7271,Temperature change,°C,-1.743,2.465,3.919,...,1.212,0.321,-3.201,1.494,-3.187,2.699,2.251,-0.323,2.705,0.086
3,2,Afghanistan,7002,February,6078,Standard Deviation,°C,2.597,2.597,2.597,...,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597
4,2,Afghanistan,7003,March,7271,Temperature change,°C,0.516,1.336,0.403,...,3.39,0.748,-0.527,2.246,-0.076,-0.497,2.296,0.834,4.418,0.234


In [None]:
#Traducir al español los datos de la columna 'Elemento'

traduccion_elemento = {"Temperature change": "Cambio de temperatura", "Standard Deviation": "Desviación Estándar"}
df_clean['Elemento'] = df_clean['Elemento'].replace(traduccion_elemento)
df_clean.head()

Unnamed: 0,Código de área,Área,Código de mes,Mes,Código de elemento,Elemento,Unidad,1961,1962,1963,...,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
0,2,Afghanistan,7001,January,7271,Cambio de temperatura,°C,0.777,0.062,2.744,...,3.601,1.179,-0.583,1.233,1.755,1.943,3.416,1.201,1.996,2.951
1,2,Afghanistan,7001,January,6078,Desviación Estándar,°C,1.95,1.95,1.95,...,1.95,1.95,1.95,1.95,1.95,1.95,1.95,1.95,1.95,1.95
2,2,Afghanistan,7002,February,7271,Cambio de temperatura,°C,-1.743,2.465,3.919,...,1.212,0.321,-3.201,1.494,-3.187,2.699,2.251,-0.323,2.705,0.086
3,2,Afghanistan,7002,February,6078,Desviación Estándar,°C,2.597,2.597,2.597,...,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597
4,2,Afghanistan,7003,March,7271,Cambio de temperatura,°C,0.516,1.336,0.403,...,3.39,0.748,-0.527,2.246,-0.076,-0.497,2.296,0.834,4.418,0.234


In [None]:
#Traducir los datos de la columna 'Mes'

traduccion_meses = {"January": "Enero", "February": "Febrero", "March": "Marzo", "April": "Abril",
                    "May": "Mayo", "June": "Junio", "July": "Julio", "August": "Agosto",
                    "September": "Septiembre", "October": "Octubre", "November": "Noviembre", "December": "Diciembre",
                    "Meteorological year": "Año Meteorológico"}

df_clean['Mes'] = df_clean['Mes'].replace(traduccion_meses)
df_clean.head()

Unnamed: 0,Código de área,Área,Código de mes,Mes,Código de elemento,Elemento,Unidad,1961,1962,1963,...,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
0,2,Afghanistan,7001,Enero,7271,Cambio de temperatura,°C,0.777,0.062,2.744,...,3.601,1.179,-0.583,1.233,1.755,1.943,3.416,1.201,1.996,2.951
1,2,Afghanistan,7001,Enero,6078,Desviación Estándar,°C,1.95,1.95,1.95,...,1.95,1.95,1.95,1.95,1.95,1.95,1.95,1.95,1.95,1.95
2,2,Afghanistan,7002,Febrero,7271,Cambio de temperatura,°C,-1.743,2.465,3.919,...,1.212,0.321,-3.201,1.494,-3.187,2.699,2.251,-0.323,2.705,0.086
3,2,Afghanistan,7002,Febrero,6078,Desviación Estándar,°C,2.597,2.597,2.597,...,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597,2.597
4,2,Afghanistan,7003,Marzo,7271,Cambio de temperatura,°C,0.516,1.336,0.403,...,3.39,0.748,-0.527,2.246,-0.076,-0.497,2.296,0.834,4.418,0.234


# **Preparación de datos**

Filtrado de datos

Filtrar solo los datos anuales: ésto porque necesitamos los resúmenes de temperatura de todo el año para el análisis de tendencias.

In [None]:
# Filtramos solo las filas que contienen el resumen del año completo (lo que contiene Metereological year).
# De la columna "Mes" quédate sólo con las filas que digan "Año Meteorológico" porque es el que contiene los resúmenes de temperatura de todo el año que necesitaremos para el análisis de tendencias.
df_anual = df_clean[df_clean['Mes'] == 'Año Meteorológico'].copy()

In [None]:
# Seleccionamos solo las columnas de año
columnas_años = df_anual.columns[7:]
print("\n--- Datos Anuales Filtrados y Listos ---")


--- Datos Anuales Filtrados y Listos ---


Filtro y LAMBDA

In [None]:
# Filtrado paises con cambio de temperatura mayor a 6°C en 2019 usando una función lamda
temp_changes =  df_clean[ df_clean['2019'] > 6].copy()
temp_changes['High_Change'] = temp_changes.apply(lambda row: [col for col in df_clean.columns if col.isdigit() and row[col] > 6], axis=1)
print(temp_changes[['Área', 'Mes', 'Elemento', '2019']])

                                Área      Mes               Elemento   2019
648                          Belarus  Febrero  Cambio de temperatura  6.504
2450                         Estonia  Febrero  Cambio de temperatura  6.487
4082                          Latvia  Febrero  Cambio de temperatura  6.413
4286                       Lithuania  Febrero  Cambio de temperatura  6.465
7180  Svalbard and Jan Mayen Islands    Abril  Cambio de temperatura  7.215


Map y LAMBDA

In [None]:
# Usamos 'apply' que es la versión de Pandas de 'map'.
# Función LAMBDA: verifica si la media de los 10 años más recientes (2010-2019) es mayor a 1.0 °C y crea una nueva columna de SI o NO. Recibe la fila (x) y calcula el promedio de las columnas de 2010 a 2019 fila por fila.
df_anual['Decada_Reciente_Extrema'] = df_anual.apply( lambda x: 'SI' if x[['2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018', '2019']].mean() > 1.0 else 'NO', axis=1)
print("\n--- Clasificación de Países Extremos Creada ---")
print(df_anual[['Área', 'Decada_Reciente_Extrema']].head(10))


--- Clasificación de Países Extremos Creada ---
               Área Decada_Reciente_Extrema
32      Afghanistan                      SI
33      Afghanistan                      NO
66          Albania                      SI
67          Albania                      NO
100         Algeria                      SI
101         Algeria                      NO
134  American Samoa                      SI
135  American Samoa                      NO
168         Andorra                      SI
169         Andorra                      NO


Reduce y Lambda

In [None]:
# Convertir Código de área a numérico
df_clean['Código de área'] = pd.to_numeric(df_clean['Código de área'], errors='coerce')

# Filtrar por Cambio de temperatura en todas las áreas (Usando como referencia los Código de área)
temp_df = df_clean[df_clean['Elemento'] == 'Cambio de temperatura'].copy()
temp_df = temp_df[(temp_df['Código de área'] >= 2) & (temp_df['Código de área'] <= 5873)].copy()

# Identificar columnas de años
year_columns = [col for col in temp_df.columns if col.isdigit() and 1960 < int(col) <= 2019]

# Función para sumar valores de las columnas de años por fila (mes y área)
temp_df['Cambio_Total_por_Mes'] = temp_df.apply(
    lambda fila: reduce(lambda x, y: x + (y if pd.notna(y) else 0), [fila[col] for col in year_columns]),
    axis=1
)

# Sumar el Cambio_Total_por_Mes a lo largo de todos los años por área
def sum_reduce(series):
    return reduce(lambda x, y: x + (y if pd.notna(y) else 0), series, 0)

area_totals = temp_df.groupby(['Área', 'Código de área'])['Cambio_Total_por_Mes'].apply(sum_reduce).reset_index()
area_totals.rename(columns={'Cambio_Total_por_Mes': 'Cambio_Total_por_Área'}, inplace=True)

print(area_totals.head(20))

                         Área  Código de área  Cambio_Total_por_Área
0                 Afghanistan               2                436.238
1                      Africa            5100                493.411
2                     Albania               3                486.623
3                     Algeria               4                716.772
4              American Samoa               5                395.732
5                    Americas            5200                485.926
6                     Andorra               6                699.507
7                      Angola               7                415.385
8                    Anguilla             258                258.730
9           Annex I countries            5848                605.546
10                 Antarctica              30                159.057
11        Antigua and Barbuda               8                250.776
12                  Argentina               9                266.328
13                      Aruba     