Cargo los datos sobre temperaturas durante el año 2021 de Barcelona desde la estación de Drassanes que tiene un criterio de temperatura a nivel ciudad.

In [14]:
import pandas as pd

# Cargo el archivo csv
df_temp_2023 = pd.read_csv('temp_2023.csv', header=0, delimiter= ";")

# Muestro el DataFrame
df_temp_2023.head()

Unnamed: 0,any,mes,dia,tmax,tmin,prec
0,2023,1,1,15.3,10.8,0.0
1,2023,1,2,14.7,10.9,0.1
2,2023,1,3,16.0,9.0,0.0
3,2023,1,4,17.7,9.1,0.0
4,2023,1,5,16.5,8.9,0.0


In [15]:
# Renombro las columnas
df_temp_2023 = df_temp_2023.rename(columns={'any': 'year', 'mes': 'month', 'dia': 'day'})

# Creo la columna 'fecha' combinando las columnas renombradas
df_temp_2023['fecha'] = pd.to_datetime(df_temp_2023[['year', 'month', 'day']])

# Formateo la columna 'fecha' a 'yyyy-mm-dd'
df_temp_2023['fecha'] = df_temp_2023['fecha'].dt.strftime('%Y-%m-%d')

df_temp_2023.head()

Unnamed: 0,year,month,day,tmax,tmin,prec,fecha
0,2023,1,1,15.3,10.8,0.0,2023-01-01
1,2023,1,2,14.7,10.9,0.1,2023-01-02
2,2023,1,3,16.0,9.0,0.0,2023-01-03
3,2023,1,4,17.7,9.1,0.0,2023-01-04
4,2023,1,5,16.5,8.9,0.0,2023-01-05


El dataframe está compuesto por 365 filas y 7 columnas

In [16]:
df_temp_2023.shape 

(365, 7)

Elimino las columnas `year`, `month`, `day` al tener ya la columna fecha

In [17]:
df_temp_2023= df_temp_2023.drop(columns=['year', 'month','day'])

df_temp_2023.head()

Unnamed: 0,tmax,tmin,prec,fecha
0,15.3,10.8,0.0,2023-01-01
1,14.7,10.9,0.1,2023-01-02
2,16.0,9.0,0.0,2023-01-03
3,17.7,9.1,0.0,2023-01-04
4,16.5,8.9,0.0,2023-01-05


Reviso los tipos de archivo del dataframe

In [18]:
df_temp_2023.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   tmax    365 non-null    float64
 1   tmin    365 non-null    float64
 2   prec    365 non-null    float64
 3   fecha   365 non-null    object 
dtypes: float64(3), object(1)
memory usage: 11.5+ KB


Realizo la transformación de la columna `fecha` al tipo `datetime`

In [19]:
df_temp_2023['fecha']= pd.to_datetime(df_temp_2023['fecha'], format='%Y-%m-%d')
df_temp_2023.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   tmax    365 non-null    float64       
 1   tmin    365 non-null    float64       
 2   prec    365 non-null    float64       
 3   fecha   365 non-null    datetime64[ns]
dtypes: datetime64[ns](1), float64(3)
memory usage: 11.5 KB


Compruebo si existen valores nulos en el dataframe.

In [20]:
df_temp_2023.isnull().sum()

tmax     0
tmin     0
prec     0
fecha    0
dtype: int64

Voy a crear la columna `tmed` para tener la media del día

In [21]:
df_temp_2023['tmed']= (df_temp_2023['tmin'] + df_temp_2023['tmax']) / 2
df_temp_2023.head()

Unnamed: 0,tmax,tmin,prec,fecha,tmed
0,15.3,10.8,0.0,2023-01-01,13.05
1,14.7,10.9,0.1,2023-01-02,12.8
2,16.0,9.0,0.0,2023-01-03,12.5
3,17.7,9.1,0.0,2023-01-04,13.4
4,16.5,8.9,0.0,2023-01-05,12.7


Agrego la columna ciudad con "Barcelona"

In [22]:
df_temp_2023['ciudad'] = "Barcelona"
df_temp_2023.head()

Unnamed: 0,tmax,tmin,prec,fecha,tmed,ciudad
0,15.3,10.8,0.0,2023-01-01,13.05,Barcelona
1,14.7,10.9,0.1,2023-01-02,12.8,Barcelona
2,16.0,9.0,0.0,2023-01-03,12.5,Barcelona
3,17.7,9.1,0.0,2023-01-04,13.4,Barcelona
4,16.5,8.9,0.0,2023-01-05,12.7,Barcelona


- Reordeno las columnas

In [23]:
df_temp_2023= df_temp_2023[['fecha', 'ciudad', 'tmin', 'tmax', 'tmed', 'prec']]
df_temp_2023.head()


Unnamed: 0,fecha,ciudad,tmin,tmax,tmed,prec
0,2023-01-01,Barcelona,10.8,15.3,13.05,0.0
1,2023-01-02,Barcelona,10.9,14.7,12.8,0.1
2,2023-01-03,Barcelona,9.0,16.0,12.5,0.0
3,2023-01-04,Barcelona,9.1,17.7,13.4,0.0
4,2023-01-05,Barcelona,8.9,16.5,12.7,0.0


Exporto el dataframe a un archivo en formato `csv`

In [24]:
df_temp_2023.to_csv('temp_bcn_2023.csv', index= False)

Resumen del dataframe creado:

- Se agregó la columna `fecha` tomando como referencia las columnas `year`, ` month` y `day`, que posteriormente se eliminaron.
- Se agregó la columna `tmed` calculando la media de las columnas `tmin` y `tmax`.
- Se agregó la columna `ciudad` con el registro `Barcelona`
- No se encontraron valores nulos.
- Se reordenaron las columnas
- Se ha exportado el dataframe final a un archivo en formato `csv`