### Limpieza y transformacion de datos:

En este notebook se dara a conocer el proceso de **limpieza y transformacion de datos** que se realizara para el proyecto. Se explicara la base de datos a utilizar, los cambios a realizar en el dataframe y el resultado final para poder empezar la exploracion de datos.

### Liberias:


In [2]:
import pandas as pd
import numpy as np
import os

### Base de datos

Luego de revisar las bases de datos posibles, decidimos utilizar **MeteoChile** ya que se puede hacer solicitudes con los datos que estimemos convenientes. En este caso. nos interesa saber las temperaturas maximas mensuales, ya que estamos hablando de estaciones climaticas. 

La url donde se realizan las solicitudes sera la siguiente:

- [MeteoChile-Temperatura_Maxima-Anual](https://climatologia.meteochile.gob.cl/application/requerimiento/producto/RE2007)

Mientras que lo parametros para generar las solicitudes seran los siguientes:

- Estación: $330020$
    - *El codigo de estacion se refiere al codigo que se le da a cierto de sector de Chile en la base de datos. En este caso, $330020$ es el codigo de **Quinta Normal, Santiago** que entre las otras dos que hay es la que mas centrada que esta en la cuidad, por lo tanto consideramos que es la mas apropiada para analizar.*
- Año: Varios
    - *Al no poder realizar varios años a la vez se realizara uno por uno y se realizaran transformaciones con ellos, se unirian para sacar datos importantes de un conjunto de años.*

Utilizaremos un año cualquiera para ver como estan los datos:

In [8]:
url = "https://climatologia.meteochile.gob.cl/application/anual/temperaturaMaximaAnual/330020/1960" 
tables = pd.read_html(url, header=None)

# Seleccionar primera tabla encontrada
df = tables[0]
df

Unnamed: 0_level_0,Día,Meses,Meses,Meses,Meses,Meses,Meses,Meses,Meses,Meses,Meses,Meses,Meses
Unnamed: 0_level_1,Día,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
0,1,21.8,31.4,30.1,28.8,24.4,15.2,9.1,14.6,20.8,19.4,24.9,25.1
1,2,28.4,29.6,32.0,22.8,24.8,17.4,14.8,15.3,24.6,26.0,27.1,26.9
2,3,28.2,27.8,29.4,25.8,24.1,18.4,12.8,17.2,24.5,26.3,23.8,28.6
3,4,28.2,30.2,29.5,28.6,15.4,17.4,12.9,20.8,23.6,19.8,25.4,31.6
4,5,31.1,33.3,28.8,28.4,16.9,18.4,12.9,26.9,15.6,16.0,28.0,33.4
5,6,28.6,32.1,28.8,26.8,17.4,19.6,11.1,21.2,12.8,13.9,25.8,30.6
6,7,20.9,31.6,28.0,26.6,19.4,15.2,16.5,20.6,18.4,17.2,26.9,26.4
7,8,28.9,30.6,28.5,26.0,18.7,13.8,16.0,20.9,21.4,16.6,29.2,27.3
8,9,31.8,30.8,29.2,29.0,21.2,13.4,8.4,20.9,14.7,23.2,29.0,27.6
9,10,31.0,28.4,27.4,27.0,23.2,14.7,8.0,17.8,15.4,24.0,25.8,21.3


Aqui vemos las temperaturas maximas registradas en cada dia del año 1960. Y ademas algunos datos estadiscos como la media.

Realizaremos algunos cambios al dataframe, lo haremos con una funcion, ya que hay que hacerlo para varios años, primero haremos los cambios y luego aplicarlo con cada año.

In [21]:
df_clean = df.copy().drop([31, 32, 33, 34, 35])

df_clean.columns = df_clean.columns.droplevel(0)

display(df_clean)
display(df_clean.info())
df_clean[df_clean.duplicated()]

Unnamed: 0,Día,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
0,1,21.8,31.4,30.1,28.8,24.4,15.2,9.1,14.6,20.8,19.4,24.9,25.1
1,2,28.4,29.6,32.0,22.8,24.8,17.4,14.8,15.3,24.6,26.0,27.1,26.9
2,3,28.2,27.8,29.4,25.8,24.1,18.4,12.8,17.2,24.5,26.3,23.8,28.6
3,4,28.2,30.2,29.5,28.6,15.4,17.4,12.9,20.8,23.6,19.8,25.4,31.6
4,5,31.1,33.3,28.8,28.4,16.9,18.4,12.9,26.9,15.6,16.0,28.0,33.4
5,6,28.6,32.1,28.8,26.8,17.4,19.6,11.1,21.2,12.8,13.9,25.8,30.6
6,7,20.9,31.6,28.0,26.6,19.4,15.2,16.5,20.6,18.4,17.2,26.9,26.4
7,8,28.9,30.6,28.5,26.0,18.7,13.8,16.0,20.9,21.4,16.6,29.2,27.3
8,9,31.8,30.8,29.2,29.0,21.2,13.4,8.4,20.9,14.7,23.2,29.0,27.6
9,10,31.0,28.4,27.4,27.0,23.2,14.7,8.0,17.8,15.4,24.0,25.8,21.3


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31 entries, 0 to 30
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Día         31 non-null     object
 1   Enero       31 non-null     object
 2   Febrero     29 non-null     object
 3   Marzo       31 non-null     object
 4   Abril       30 non-null     object
 5   Mayo        31 non-null     object
 6   Junio       30 non-null     object
 7   Julio       31 non-null     object
 8   Agosto      31 non-null     object
 9   Septiembre  30 non-null     object
 10  Octubre     31 non-null     object
 11  Noviembre   30 non-null     object
 12  Diciembre   31 non-null     object
dtypes: object(13)
memory usage: 3.3+ KB


None

Unnamed: 0,Día,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre


Podemos observar que:

-  Hay datos nulos, los cuales seria dia que no existen, como el 30 de febrero. Estos se dejaran asi y no los contaremos para analisis matematicos.

- No hay datos duplicados.

- Los tipos estan mal, todos son objetos (strings) cuando deberian ser numeros decimales en el caso de las temperaturas, y los dias en numeros enteros.

In [23]:
df_clean = df_clean.astype({"Día": "int", "Enero": "float", "Febrero": "float", "Marzo": "float", "Abril": "float", "Mayo": "float", "Junio": "float", "Julio": "float", "Agosto": "float", "Septiembre": "float", "Octubre": "float", "Noviembre": "float", "Diciembre": "float"})

display(df_clean.info())
display(df_clean.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31 entries, 0 to 30
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Día         31 non-null     int64  
 1   Enero       31 non-null     float64
 2   Febrero     29 non-null     float64
 3   Marzo       31 non-null     float64
 4   Abril       30 non-null     float64
 5   Mayo        31 non-null     float64
 6   Junio       30 non-null     float64
 7   Julio       31 non-null     float64
 8   Agosto      31 non-null     float64
 9   Septiembre  30 non-null     float64
 10  Octubre     31 non-null     float64
 11  Noviembre   30 non-null     float64
 12  Diciembre   31 non-null     float64
dtypes: float64(12), int64(1)
memory usage: 3.3 KB


None

Unnamed: 0,Día,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
count,31.0,31.0,29.0,31.0,30.0,31.0,30.0,31.0,31.0,30.0,31.0,30.0,31.0
mean,16.0,28.725806,29.655172,27.087097,25.39,18.787097,14.876667,12.632258,16.796774,19.906667,21.745161,28.226667,28.858065
std,9.092121,2.609083,1.758568,2.564338,2.388817,4.437773,2.645449,2.788714,4.059432,4.120004,4.162919,2.776246,3.170991
min,1.0,20.9,26.4,20.6,18.4,10.2,10.2,7.2,8.8,12.8,12.6,21.9,21.3
25%,8.5,28.1,28.4,25.4,24.225,15.0,13.05,10.65,14.6,16.6,19.3,25.975,26.95
50%,16.0,29.2,29.8,27.9,25.7,19.4,13.95,12.9,16.6,20.05,21.2,28.5,29.4
75%,23.5,30.7,30.8,28.85,26.975,22.45,17.4,15.0,19.7,23.55,25.9,30.35,30.5
max,31.0,31.8,33.3,32.0,29.0,24.8,20.8,17.5,26.9,27.1,28.2,33.0,35.0


Creamos el Dataframe para quedarnos con el maxima temperatura registrada de cada mes del año y un Dataframe con la media de la temperatura maxima de cada mes del año.

In [37]:
df_maximos = pd.DataFrame(columns=["Año",  "Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio", "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre"])

df_media = df_maximos.copy()

df_maximos

Unnamed: 0,Año,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre


Ahora generaremos un rango de años (1920-2024) y los pondremos en el dataframe:

In [41]:
for año in range(1920, 2025):
    print(año)
    la_url = "https://climatologia.meteochile.gob.cl/application/anual/temperaturaMaximaAnual/330020/" + str(año) 
    la_tables = pd.read_html(la_url, header=None)

    el_df = la_tables[0]
    el_df_clean = el_df.copy().drop([31, 32, 33, 34, 35])

    el_df_clean.columns = el_df_clean.columns.droplevel(0)

    el_df_clean = el_df_clean.replace(".", np.nan)

    el_df_clean = el_df_clean.astype({"Día": "int", "Enero": "float", "Febrero": "float", "Marzo": "float", "Abril": "float", "Mayo": "float", "Junio": "float", "Julio": "float", "Agosto": "float", "Septiembre": "float", "Octubre": "float", "Noviembre": "float", "Diciembre": "float"})

    el_df_clean_max = el_df_clean[["Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio", "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre"]].max()

    el_df_clean_max_row = pd.DataFrame([el_df_clean_max])

    el_df_clean_max_row.insert(loc=0, column="Año", value=año)

    el_df_clean_mid = el_df_clean[["Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio", "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre"]].mean()

    el_df_clean_mid_row = pd.DataFrame([el_df_clean_mid])

    el_df_clean_mid_row.insert(loc=0, column="Año", value=año)

    df_maximos = pd.concat([df_maximos, el_df_clean_max_row], ignore_index=True)

    df_media = pd.concat([df_media, el_df_clean_mid_row], ignore_index=True)


display(df_maximos)
df_media

1920
1921
1922
1923
1924
1925
1926
1927
1928
1929
1930
1931
1932
1933
1934
1935
1936
1937
1938
1939
1940
1941
1942
1943
1944
1945
1946
1947
1948
1949
1950
1951
1952
1953
1954
1955
1956
1957
1958
1959
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022
2023
2024


Unnamed: 0,Año,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
0,1920,34.0,33.0,32.7,28.8,28.8,22.8,21.7,23.5,30.0,28.0,32.2,32.4
1,1921,34.5,32.3,33.0,28.2,24.5,22.3,25.4,27.5,26.5,29.0,34.0,33.3
2,1922,33.0,32.0,31.2,30.0,27.5,20.9,22.7,24.5,27.0,26.5,31.1,32.0
3,1923,33.3,32.0,30.6,29.2,27.4,26.5,22.3,21.7,25.2,26.0,31.2,32.2
4,1924,33.0,31.7,32.3,30.0,26.2,22.7,26.8,29.2,30.9,31.7,31.8,33.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...
160,2020,34.5,35.0,35.0,33.9,30.7,24.3,23.8,25.8,28.3,31.2,33.2,33.5
161,2021,33.1,33.6,33.8,31.4,27.3,25.7,27.9,27.9,32.2,33.4,33.6,34.3
162,2022,33.6,34.9,33.0,30.4,27.2,24.7,22.3,30.5,29.2,29.6,33.9,36.7
163,2023,34.4,35.8,34.1,32.5,29.0,26.9,26.1,27.4,26.3,27.9,32.8,35.7


Unnamed: 0,Año,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
0,1920,29.474194,29.320690,28.683871,23.333333,19.090323,14.190000,14.880645,17.722581,19.733333,21.151613,25.460000,27.451613
1,1921,29.319355,28.742857,26.061290,23.170000,18.854839,14.086667,15.941935,16.967742,18.306667,22.216129,26.013333,27.925806
2,1922,29.106452,29.167857,25.245161,24.003333,19.267742,12.970000,15.283871,14.467742,17.293333,20.245161,24.706667,28.332258
3,1923,28.745161,28.489286,27.190323,23.953333,18.270968,14.250000,12.774194,14.819355,19.000000,18.519355,25.743333,26.490323
4,1924,29.461290,28.682759,26.219355,23.693333,19.458065,15.140000,18.848387,18.877419,20.610000,24.816129,26.380000,29.709677
...,...,...,...,...,...,...,...,...,...,...,...,...,...
160,2020,31.438710,31.286207,29.312903,25.660000,22.100000,14.700000,16.051613,18.187097,22.120000,25.487097,27.416667,30.187097
161,2021,29.996774,27.860714,26.945161,24.073333,20.577419,18.043333,19.254839,18.070968,21.173333,25.293548,27.940000,29.774194
162,2022,29.912903,30.003571,28.548387,24.160000,19.803226,16.233333,14.958065,18.019355,19.883333,24.745161,28.246667,31.216129
163,2023,30.829032,32.628571,30.706452,25.020000,20.719355,17.946667,17.341935,19.016129,18.243333,21.929032,24.330000,28.919355


Como el proceso es algo largo, se crearan archivos `.csv` para poder hacer los demas procesos de forma mas rapida y eficiente.

In [None]:
direct_max = os.path.join("data_temperatura", "maximo_temperaturas_maximas_santiago.csv")
direct_mid = os.path.join("data_temperatura", "media_temperaturas_maximas_santiago.csv")

df_maximos.to_csv(direct_max, index=False)
df_media.to_csv(direct_mid, index=False)

Ahora haremos lo mismo pero con las temperaturas minimas, sacaremos la media de las temperaturas minimas:

In [3]:
df_minimos_mid = pd.DataFrame(columns=["Año",  "Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio", "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre"])

In [5]:
for año in range(1920, 2025):
    print(año)
    la_url = "https://climatologia.meteochile.gob.cl/application/anual/temperaturaMinimaAnual/330020/" + str(año) 
    la_tables = pd.read_html(la_url, header=None)

    el_df = la_tables[0]
    el_df_clean = el_df.copy().drop([31, 32, 33, 34, 35])

    el_df_clean.columns = el_df_clean.columns.droplevel(0)

    el_df_clean = el_df_clean.replace(".", np.nan)

    el_df_clean = el_df_clean.astype({"Día": "int", "Enero": "float", "Febrero": "float", "Marzo": "float", "Abril": "float", "Mayo": "float", "Junio": "float", "Julio": "float", "Agosto": "float", "Septiembre": "float", "Octubre": "float", "Noviembre": "float", "Diciembre": "float"})

    el_df_clean_mid = el_df_clean[["Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio", "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre"]].mean()

    el_df_clean_mid_row = pd.DataFrame([el_df_clean_mid])

    el_df_clean_mid_row.insert(loc=0, column="Año", value=año)

    df_minimos_mid = pd.concat([df_minimos_mid, el_df_clean_mid_row], ignore_index=True)

display(df_minimos_mid)

1920


  df_minimos_mid = pd.concat([df_minimos_mid, el_df_clean_mid_row], ignore_index=True)


1921
1922
1923
1924
1925
1926
1927
1928
1929
1930
1931
1932
1933
1934
1935
1936
1937
1938
1939
1940
1941
1942
1943
1944
1945
1946
1947
1948
1949
1950
1951
1952
1953
1954
1955
1956
1957
1958
1959
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022
2023
2024


Unnamed: 0,Año,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
0,1920,12.174194,11.182759,10.041935,6.893333,5.832258,3.840000,1.629032,3.703226,5.706667,6.419355,9.583333,11.374194
1,1921,11.561290,10.464286,9.141935,6.413333,7.551613,0.430000,1.025806,3.590323,4.833333,7.777419,10.083333,10.432258
2,1922,14.425806,10.617857,9.270968,5.230000,4.141935,2.883333,3.596774,3.238710,6.330000,7.219355,9.020000,10.935484
3,1923,12.387097,10.707143,9.193548,6.473333,2.138710,3.113333,1.861290,4.061290,5.746667,6.841935,9.820000,9.561290
4,1924,11.680645,10.862069,9.829032,6.093333,2.670968,2.036667,2.200000,2.106452,4.776667,7.900000,8.426667,11.048387
...,...,...,...,...,...,...,...,...,...,...,...,...,...
100,2020,13.938710,12.568966,11.935484,9.140000,6.280645,3.873333,4.016129,3.441935,5.946667,7.267742,9.390000,11.435484
101,2021,13.012903,12.467857,11.319355,8.246667,5.561290,4.890000,1.258065,4.793548,5.410000,7.812903,9.830000,11.987097
102,2022,12.506452,12.275000,10.403226,7.746667,5.751613,3.606667,2.651613,4.500000,5.800000,7.835484,11.136667,13.290323
103,2023,13.512903,13.814286,12.751613,9.393333,6.338710,5.893333,5.345161,6.574194,8.113333,7.829032,9.076667,11.412903


In [6]:
direct_min_mid = os.path.join("data_temperatura", "media_temperaturas_minimas_santiago.csv")

df_minimos_mid.to_csv(direct_min_mid, index=False)