###### .<center> **Proyecto Primer Parcial-Bases de Programación**



. <center> *Tema: **"Monitoreo de las Condiciones Climáticas en Estados Unidos, 2024"*** 
-
.<center>*Integrantes*:**Karla Filian// Juan Pablo Molina // Daniella Mora**



In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")

## Introducción

La Tierra a lo largo de su historia ha presentado fluctuaciones climáticas en diferentes ubicaciones geográficas. Con la aceleración de la contaminación por causas antropogénicas, la temperatura se destaca como una de las principales variables climáticas influenciadas por el calentamiento global cuyo aumento conlleva anomalías en la humedad y velocidad del viento generando impactos negativos en el bienestar humano y el mdeio ambiente (Adekayi, 2009).

Identificar patrones metereológicos de zonas urbanas es crucial para determina posibles impactos en diversas áreas, desde la agricultura hasta la gestión de desastres naturales (Ryan et al., 2016). En el contexto del cambio climático y los eventos meteorológicos extremos cada vez más frecuentes, el año 2024 se presenta como un período crítico para el análisis y la interpretación de los datos climáticos en Estados Unidos.

En las últimas décadas, Python se ha convertido como uno de los lenguajes de programación de código abierto más populares y robustos dentro de la communidad científica, ya que permite el análisis de grandes volúmenes de datos de forma eficiente, además de su versatilidad, amplia gama de bibliotecas especializadas y facilidad de uso (Chimarro et al., 2023)


## Objetivos
### General
Procesar datos climáticos en Estados Unidos durante el año 2024 mediante códigos de Python para la identificación de patrones con las variables de temperatura, precipitación, humedad y velocidad del viento.
### Específicos 
* Definir funciones para limpiar y estructurar los datos para facilitar su análisis.
* Calcular métricas estadísticas claves para las variables climáticas establecidas.
* Crear gráficos y mapas que ilustren los patrones climáticos en Estados Unidos.


## Descripción de los datos

La base de datos proporcionada para este proyecto contiene un total de 1,000,000 registros que capturan información detallada sobre las condiciones climáticas en diferentes ubicaciones de Estados Unidos. Cada registro en la base de datos incluye los siguientes campos:
* Locación (Variable categórica): Zona geográfica en donde se tomaron las medidas
* Fecha y Hora (Variable categórica): Con formato DD-MM-YYYY HH:MM, indicando el perídodo de tiempo en el  que se tomaron las mediciones.
* Temperatura (°C) (Variable numérica):  Valor de la temperatura del aire en grados Celsius.
* Humedad (%) (Variable numérica):Porcentaje de humedad relativa en el aire.
* Precipitación (mm) (Variable numérica): Cantidad de precipitación anual acumulada en milímetros.
* Velocidad del Viento (km/h)(Variable numérica): Medida en kilómetros por hora. 

# Análisis exploratorio de los datos

## 1. Carga y Preparación de Datos

### 1.1. Cargar el conjunto de datos utilizando pandas

In [2]:
df = pd.read_csv("Weather_Data-1.csv")
df

Unnamed: 0,Location,Date_Time,Temperature_C,Humidity_pct,Precipitation_mm,Wind_Speed_kmh
0,San Diego,1/14/2024 21:12,10.683001,41.195754,4.020119,8.233540
1,San Diego,5/17/2024 15:22,8.734140,58.319107,9.111623,27.715161
2,San Diego,5/11/2024 9:30,11.632436,38.820175,4.607511,28.732951
3,Philadelphia,2/26/2024 17:32,-8.628976,54.074474,3.183720,26.367303
4,San Antonio,4/29/2024 13:23,39.808213,72.899908,9.598282,29.898622
...,...,...,...,...,...,...
999995,Dallas,1/1/2024 20:29,23.416877,37.705024,3.819833,16.538119
999996,San Antonio,1/20/2024 15:59,6.759080,40.731036,8.182785,29.005558
999997,New York,4/14/2024 8:30,15.664465,62.201884,3.987558,0.403909
999998,Chicago,5/12/2024 20:10,18.999994,63.703245,4.294325,6.326036


In [3]:
df.columns

Index(['Location', 'Date_Time', 'Temperature_C', 'Humidity_pct',
       'Precipitation_mm', 'Wind_Speed_kmh'],
      dtype='object')

### 1.2. Realizar limpieza básica de datos, eliminando duplicados y modificando los tipos de datos en caso de ser necesario.

In [4]:
col_dup = "Location;Date_Time"
col_dup.split(";")[0]

'Location'

***1.2.1 Se define la función *cleaning* la cual elimina datos nulos, elimina duplicados con base a las columnas "Location y "Data_Time" qudándose con la última fila y devuelve el data frame original reseteado por índice*** 

In [5]:
def cleaning(df):
    col = df.columns
    df.dropna()
    df_drop = df.drop_duplicates(subset=[col_dup.split(";")[0], col_dup.split(";")[1]], keep='last')
    df_drop = df_drop.reset_index(drop = True)
    return df_drop
        

#.drop(columns="index",inplace=True)

In [6]:
df_drop = cleaning(df)

### 1.3. Realizar resumen estadístico de los datos

***1.3.1. Con el método describe() se obtiene un resumen estadístico general sobre las variables numéricas del data frame***

In [7]:
df_drop.describe()

Unnamed: 0,Temperature_C,Humidity_pct,Precipitation_mm,Wind_Speed_kmh
count,786469.0,786469.0,786469.0,786469.0
mean,14.783508,60.026743,5.112177,14.993974
std,14.482845,17.32579,2.947179,8.663499
min,-19.969311,30.000009,9e-06,5.1e-05
25%,2.273495,45.009043,2.585784,7.480009
50%,14.782294,60.019609,5.113508,14.990614
75%,27.278911,75.045916,7.614714,22.509069
max,39.999801,89.999929,14.971583,29.999973


***1.3.2. Se utiliza la variable df_drop que contiene la función cleaning previamente creada para obtener el data frame de este proyecto "limpio"***

In [8]:
df_drop

Unnamed: 0,Location,Date_Time,Temperature_C,Humidity_pct,Precipitation_mm,Wind_Speed_kmh
0,San Diego,5/11/2024 9:30,11.632436,38.820175,4.607511,28.732951
1,Philadelphia,2/26/2024 17:32,-8.628976,54.074474,3.183720,26.367303
2,San Antonio,4/29/2024 13:23,39.808213,72.899908,9.598282,29.898622
3,San Diego,1/21/2024 8:54,27.341055,49.023236,9.166543,27.473896
4,San Jose,1/13/2024 2:10,1.881883,65.742325,0.221709,1.073112
...,...,...,...,...,...,...
786464,Dallas,1/1/2024 20:29,23.416877,37.705024,3.819833,16.538119
786465,San Antonio,1/20/2024 15:59,6.759080,40.731036,8.182785,29.005558
786466,New York,4/14/2024 8:30,15.664465,62.201884,3.987558,0.403909
786467,Chicago,5/12/2024 20:10,18.999994,63.703245,4.294325,6.326036


## 2. Automatización del Análisis Exploratorio de Datos (EDA):

### 2.1. Utilizar estructuras de datos para almacenar y manipular información relevante. Pueden ser algunas columnas del conjunto de datos

***2.1.1. Se agrega las columnas Month y Year completándose con la información de meses y año provenientes de la columna Date_Time permitiendo trabajar con las fechas de manera más eficiente***

In [9]:
col_eda = "Date_Time"
months = ["Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio",
         "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre"]
df_eda = df_drop

In [10]:
df_eda[col_eda] = pd.to_datetime(df_eda[col_eda])

In [11]:
df_eda["Month"] = df_eda[col_eda].dt.month
df_eda["Year"] = df_eda[col_eda].dt.year

df_eda["Month"] = df_eda["Month"].replace([1,2,3,4,5,6,7,8,9,10,11,12],months)


In [12]:
df_eda

Unnamed: 0,Location,Date_Time,Temperature_C,Humidity_pct,Precipitation_mm,Wind_Speed_kmh,Month,Year
0,San Diego,2024-05-11 09:30:00,11.632436,38.820175,4.607511,28.732951,Mayo,2024
1,Philadelphia,2024-02-26 17:32:00,-8.628976,54.074474,3.183720,26.367303,Febrero,2024
2,San Antonio,2024-04-29 13:23:00,39.808213,72.899908,9.598282,29.898622,Abril,2024
3,San Diego,2024-01-21 08:54:00,27.341055,49.023236,9.166543,27.473896,Enero,2024
4,San Jose,2024-01-13 02:10:00,1.881883,65.742325,0.221709,1.073112,Enero,2024
...,...,...,...,...,...,...,...,...
786464,Dallas,2024-01-01 20:29:00,23.416877,37.705024,3.819833,16.538119,Enero,2024
786465,San Antonio,2024-01-20 15:59:00,6.759080,40.731036,8.182785,29.005558,Enero,2024
786466,New York,2024-04-14 08:30:00,15.664465,62.201884,3.987558,0.403909,Abril,2024
786467,Chicago,2024-05-12 20:10:00,18.999994,63.703245,4.294325,6.326036,Mayo,2024


### 2.2. Implementar funciones que ayuden a calcular estadísticas descriptivas como la media, mediana y desviación estándar de las variables numéricas

***2.2.1. Se define la función stats para obtener mediante los métodos mean(), median() y std() el promedio, la media y la desviación estándar de un data frame***

In [13]:
def stats(df,list_1, list_2):
    dfmean = df.groupby(list_1)[list_2].mean().reset_index()
    dfmed = df.groupby(list_1)[list_2].median().reset_index()
    dfstd = df.groupby(list_1)[list_2].std().reset_index()
    return dfmean,dfmed,dfstd

**2.2.1.1.Se utiliza la función stats con las columnas correspondientes al data frame del proyecto**

In [14]:
dfmean,dfmed,dfstd = stats(df_eda,["Location","Month"],["Temperature_C","Humidity_pct","Precipitation_mm","Wind_Speed_kmh"])
print("Mean")
display(dfmean.head())
print("Median")
display(dfmed.head())
print("Standard Deviation")
display(dfstd.head())

Mean


Unnamed: 0,Location,Month,Temperature_C,Humidity_pct,Precipitation_mm,Wind_Speed_kmh
0,Chicago,Abril,15.106425,60.005707,4.957399,14.972307
1,Chicago,Enero,14.902424,59.957304,5.031272,15.050372
2,Chicago,Febrero,15.027412,60.071065,4.976979,14.943057
3,Chicago,Marzo,15.125221,60.162028,5.015087,15.084388
4,Chicago,Mayo,14.871022,60.378065,5.05727,14.859463


Median


Unnamed: 0,Location,Month,Temperature_C,Humidity_pct,Precipitation_mm,Wind_Speed_kmh
0,Chicago,Abril,15.313469,59.871132,4.942031,14.900054
1,Chicago,Enero,14.689596,60.149283,5.053122,15.060202
2,Chicago,Febrero,15.103276,60.06893,4.95584,14.832472
3,Chicago,Marzo,15.17603,60.280387,5.020941,15.154453
4,Chicago,Mayo,14.574845,60.375135,5.026269,14.834313


Standard Deviation


Unnamed: 0,Location,Month,Temperature_C,Humidity_pct,Precipitation_mm,Wind_Speed_kmh
0,Chicago,Abril,14.463734,17.396248,2.881736,8.647166
1,Chicago,Enero,14.511919,17.348793,2.895118,8.693514
2,Chicago,Febrero,14.434121,17.320035,2.888508,8.653744
3,Chicago,Marzo,14.43983,17.329353,2.890989,8.655504
4,Chicago,Mayo,14.325468,17.341572,2.881477,8.651774


### 2.3. Realiza análisis específicos al conjunto de datos

***2.3.1 Se realizan agrupaciones con groupby() entre las columan Month, Temperature_C, Location, Precipitation_mm, Wind_Spedd_kmh para poder analizar los datos***

In [15]:
dfmean_month_temp= df_eda.groupby("Month")["Temperature_C"].mean().reset_index().round(2)

dfsum_loc_precp= df_eda.groupby("Location")["Precipitation_mm"].sum().reset_index().round(2)

dfmean_loc_wind= df_eda.groupby("Location")["Wind_Speed_kmh"].mean().reset_index().round(2)

dfmean_loc_temp= df_eda.groupby("Location")["Temperature_C"].mean().reset_index().round(2)

**2.3.1.1 Se obtiene el mes con la temperatura promedio más alta y más baja**

In [16]:
display(dfmean_month_temp.max())
print()
display(dfmean_month_temp.min())

Month             Mayo
Temperature_C    15.02
dtype: object




Month            Abril
Temperature_C    14.46
dtype: object

**2.3.1.2 Se obtiene el lugar con mayor y menor precipitación**

In [17]:
display(dfsum_loc_precp.max())
print()
display(dfsum_loc_precp.min())

Location             San Jose
Precipitation_mm    480435.25
dtype: object




Location              Chicago
Precipitation_mm    392095.98
dtype: object

**2.3.1.3. Se obtiene los lugares con la velocidad del viento promedio más alta y más baja**

In [18]:
display(dfmean_loc_wind.max())
print()
display(dfmean_loc_wind.min())

Location          San Jose
Wind_Speed_kmh       15.06
dtype: object




Location          Chicago
Wind_Speed_kmh      14.94
dtype: object

## 3. Manipulación de Datos con Pandas:

### 3.1. Crear funciones para realizar operaciones de agrupamiento y agregación

In [19]:
# Se realizó previamente en el punto 2.3.

### 3.2. Crear nuevas columnas derivadas de los datos existentes

In [20]:
# Sensación térmica Steadman
T = df_eda["Temperature_C"]
V = df_eda["Wind_Speed_kmh"]*0.277778
H = df_eda["Humidity_pct"]
SC = 35.74+0.6215*T-35.75*(V**0.16)+0.4275*T*(V**0.16)*(1-0.005*(100-H))
SC = 1.41-1.162*V+0.980*T+0.0124*V**2+0.0185*(V*T)

In [21]:
df_eda["Thermic sensation °C"] = SC

In [22]:
# Indice de Discomfort McPherson (1962)
DI=T-0.55*(1-0.01*H)*(T-14.5)

In [23]:
df_eda["Discomfort index"] = DI

In [24]:
# Indice de frío 
FC = 13.2+0.6215*T-11.37*V**0.16+0.3965*T*V**0.16

In [25]:
df_eda["Wind Chill °C"] = FC

### 3.3. Guardar el DataFrame modificado como archivo de Excel

In [27]:
df_eda.to_excel("Proyecto 1_df.xlsx")

## 4. Visualización de Datos Automatizada:

### 4.1. Implementar funciones que generen gráficos utilizando Matplotlib

In [None]:
# Generate Figure and Axes 

cmap = plt.cm.get_cmap('plasma', len(dfsum_loc_precp["Location"]))
colores = [cmap(i) for i in range(len(dfsum_loc_precp["Precipitation_mm"]))]

# Insert data (average temperatures of a city during 8 days)
location = np.array(dfsum_loc_precp["Location"]) #1. Generar/preparar datos
precip = np.array(dfsum_loc_precp["Precipitation_mm"])

# Define objects with figsize dimensiones: 12 inches for height and 8 inches for width
fig, ax = plt.subplots(figsize=(12, 8)) #2. Crear esquema

# Make plots with different marker and colors
ax.barh(location, precip, color=colores) #3. Generar gráfico

# Set labels and title
ax.set_xlabel("Precipitation (mm)") #4. Personalizar gráfico
ax.set_ylabel("Locations")
ax.set_title("Gráficos de barras por Locación y Precipitación")

# Set a limit in y axis to start the plot 
#ax.set_ylim(0)

# Show plot
plt.show()

In [None]:
# Generate Figure and Axes 

# Insert data (average temperatures of a city during 8 days)
location = np.array(dfmean_loc_temp["Location"]) #1. Generar/preparar datos
temp = np.array(dfmean_loc_temp["Temperature_C"])

# Define objects with figsize dimensiones: 12 inches for height and 8 inches for width
fig, ax = plt.subplots(figsize=(12, 8)) #2. Crear esquema

# Make plots with different marker and colors
ax.plot(location, temp, marker="*", markersize=12, color="c") #3. Generar gráfico

# Set labels and title
ax.set_xlabel("Locations") #4. Personalizar gráfico
ax.set_ylabel("Temperature (°C)")
ax.set_title("Gráfica de línea por locación y temperatura")

# Set a limit in y axis to start the plot 
ax.set_ylim(12,17)

# Show plot
plt.show()

### 4.2. Implementar funciones que generen gráficos con Seaborn

In [None]:
#Define scheme
fig, ax = plt.subplots(figsize=(10,6))

#Create plot with seaborn
sns.boxplot(data=df_eda, x="Month", y="Temperature_C", palette=["skyblue","lightyellow","lightgreen","pink","magenta"])

#Set labels and title
ax.set_title("Barplot for Temperature by Months")

#Show plot
plt.show()

In [None]:
#Define scheme
fig, ax = plt.subplots(figsize=(10,6))

#Create plot with seaborn
sns.kdeplot(data=df_eda, x="Wind Chill °C", color="c")

#Set labels and title
ax.set_xlabel("Wind Chill °C")
ax.set_title("Histogram for wind chill")

#Show plot
plt.show()

In [None]:
df_loc = df_eda.loc[df_eda["Location"]=="Phoenix"]

#Define scheme
fig, ax = plt.subplots(3,1,figsize=(10,6))

#Create plot with seaborn
sns.lineplot(data=df_loc, x="Month", y="Humidity_pct", ax=ax[0],color="c")
sns.lineplot(data=df_loc,x="Month", y="Temperature_C", ax=ax[1],color="c")
sns.barplot(data=df_loc,x="Month", y="Precipitation_mm", ax=ax[2], palette=["skyblue","yellow","lightgreen","pink","magenta"])

#Set labels and title
fig.suptitle("Precipitación, Temperatura y Humedad mensual de Phoenix")

#Show plot
plt.show()

### 4.3. Usar bucles para generar y guardar múltiples gráficos

In [None]:
def art_attack(df,graph_type_dict, column_object, column_measure):
    k=1
    for i in graph_type_dict.keys():
    #    for i in graph_type_dict:
        fig, ax = plt.subplots(figsize=(10,6))
        
        #Create plot with seaborn
        if i in ["histplot","kdeplot","countplot"]:
            eval(graph_type[i])(data= df, x=column_measure)
        elif i in ["lineplot","boxplot","barplot"]:
            eval(graph_type[i])(data=df, x=column_object, y=column_measure)
        else:
            print("Not in dictionary, sorry :(, keep trying")
        
        #Set labels and title
        ax.set_xlabel(column_measure)
        ax.set_title(str(i)+" of "+str(column_measure))

        # Save plot
        fig.savefig("Plot_"+str(k), dpi=400)
        k+=1
    
    return


In [None]:
graph_type= {"lineplot": "sns.lineplot","boxplot": "sns.boxplot","histplot": "sns.histplot","barplot": "sns.barplot","kdeplot": "sns.kdeplot"}

In [None]:
art_attack(df_eda,graph_type, "Location", "Wind_Speed_kmh")

## Resultados

- A partir de creación de la función cleaning(df) fue posible realizar una limpieza del dataframe, los métodos empleados dentro de ella permiten eliminar datos nulos (Dropna) y eliminar registros idénticos (Drop_duplicates). Además, dentro de este se resetearon los índices del datadrame (Reset_index).

- Mediante el uso del método groupby y las funciones como .mean(), .median() y .std(). Esta función emplea como argumentos el dataframe y dos listas de interés: (i) la lista de variables categóricas de las agrupaciones que se desean realizar y (ii) la lista de variables numéricas.

- Fue posible analizar los meses con temperatura promedio más alta y más baja, obtener locaciones con menor y mayor precipitación, e identificar los lugares con la velocidad promedio del viento más alta y más baja con el uso del método groupby y las agregaciones .max() y min(). Se indetificó que el mes con la temperatura promedio más alta fue abril con 14.46 grados centígrados y el mes con temperatura más baja fue mayo con 15.02 grados. La locación con temperatura y velocidad del viento más alta fue San José, por otro lato Chicago tuvo las más bajas.

- A partir de los datos existentes, fue posible calcular la sensación térmica, el índice de discomfort y la sensación térmica en días fríos para cada registro.
Mediante el diagrama de cajas y bigotes, se pudo graficar la temperatura por mes, en este se evidencia que la medina de aproximadamente 15 grados centígrados, lo que equivale al cuartil Q2 identificado por el método describe que es de 14.78 grados centígrados. También se identificó que no tiene datos atípicos.

- Al analizar el gráfico de distribución de la sensación térmica en días fríos, se evidenció una distribución uniforme.


## Conclusiones

- A partir de la creación de la función cleaning(df) se obtuvo un data frame de 786.469 registros, se redujeron 213.531 registros del millón de datos que conformaban el data frame inicialmente. Entre los registros se encontraban datos nulos y datos duplicados.
  
- Al emplear métricas estadísticas claves fue posible: identificar que Chicago es la ciudad con mayor precipitación anual y de menor temperatura, y mayo fue el mes con mayo temperatura entre todas las locaciones del data frame.

- Se concluye que Enero y Febrero son los meses con mayor precipitación promedio (7.48,7,54 mm), relacionándose con menor temperatura (9.91, y 10.09 °C) aumento de humedad (59.89,60.07 pct).


## Recomendaciones

- Para el análisis de datos de una manera eficiente, es importante reconocer que tipo de datos se procesarán. Es imprescindible el manejo de valores nulos y realizar la conversión de tipos de datos.
- Realizar un análisis estadístico básico como las medidas de tendencia central (media, mediana y moda) para tener una noción de los valores típicos encontrados entre nuestros datos.
- El empleo de histogramas o boxplot permite identificar de manera gráfica las frecuencias de datos y distribución de datos y es posible evidenciar valors atípicos.

## Referencias Bibliográficas

* Adegoke, O. O., & Dombo, T. P. (2019). Geospatial modeling of human thermal comfort in Akure Metropolis using Thom’s discomfort index. International Journal of Environment and Bioenergy, 14(1), 40-55.
* Adekayi, P. E. (2009). Temperature Trends over Katsina. The Abuja Journal of Geography and Development, 97-106
* Chimarro-Amaguaña, J. D., Chuqui-Barriga, F. A., Guamán-Cullispuma, D. P., & Quishpe-Farinango, C. I. (2023). El auge exponencial del lenguaje Python en el desarrollo tecnológico. Revista Científica INGENIAR: Ingeniería, Tecnología e Investigación. ISSN: 2737-6249., 6(12), 240-256.
* Ryan, D., Gorfinkie, D., Bustos, E., Cruz, J., Ellinger, P., Fernández, R., ... & Scabin, F. (2016). Toma de decisiones y cambio climático: acercando la ciencia y la política en América Latina y el Caribe.
* Quayle, R. G., & Steadman, R. G. (1998). The Steadman wind chill: An improvement over present scales. Weather and Forecasting, 13(4), 1187-1193.