# **Project - Precipitations and Temperatures on Chile** 


Fabián Cornejo, 2024

### About

Proyecto fijado a demostrar habilidad de proceso, limpieza y analisis de datos en Python. Así también elaborar paneles interactivos en Power Bi\Tableau. 

El trabajo se enfoca en las precipitaciones y temperaturas de chile entre 2016-2023 para así responder diferentes dudas de cultura general, con datos públicados por Dirección General de Aeronáutica Civil y obtenidos en [datos.gob.cl]

### Questions

* ¿Existe alguna tendencia de cambio climatico en las fechas estudiadas?
* ¿Si existiesa alguna tendencia de cambio, qué se puede recomendar?
* ¿Cuál es el promedio de temperaturas y precipitaciones? por región y estación

## **Proceso y Limpieza, Precipitaciones**

In [None]:
import pandas as pd
import glob
from code_nans_reemplazo import Nans_reemplazo

Se procesa y prepan los datos con las librerias pandas y glob, además se importan librerias privadas demostradas en el Indice final

En primera instancia se revisa los archivos csv para luego procesarlos como un conjunto. Sin embargo, se observan los siguientes errores 

* Columnas erroneas/no correspondientes (Enero 2017)
* Filas/valores no pertenecientes a su columna (Enero 2017)
* Falta de etiquetas en columnas (2S de 2021 hasta 1S del 2023)
* Etiquetas Erroneas (2018)

Así debería verse el data frame de precipitaciones en Chile

In [4]:
M1_2016 = pd.read_csv(r'C:\Yop\Datasets\precipitaciones\2016-2021\precipitacion_012016.csv', sep = ';')
M1_2016.head()

Unnamed: 0,CodigoNacional,NombreEstacion,Latitud,Altura,Año,Mes,Dia,SumaDiaria
0,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,1,0.0
1,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,2,0.0
2,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,3,0.0
3,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,4,0.0
4,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,5,0.0


### Se soluciona: Columnas erroneas y valores no pertenecientes (2017)

Se procesa y limpia 2017 inicialmente. Es notorio que las columnas T.Maxima y T.Minima no corresponden al data frame, además T.maxima contiene los valores de SumaDiaria (precipitaciones del día) 

In [5]:
M1_2017 = pd.read_csv(r'C:\Yop\Datasets\precipitaciones\precipitacion_012017.csv', sep = ';')
M1_2017.head()

Unnamed: 0,CodigoNacional,NombreEstacion,Latitud,Altura,Año,Mes,Dia,T.Maxima,T.Minima
0,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2017,1,1,0.0,
1,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2017,1,2,0.0,
2,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2017,1,3,0.0,
3,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2017,1,4,0.0,
4,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2017,1,5,0.0,


In [6]:
M1_2017 =  M1_2017.rename(columns={'T.Maxima' : 'SumaDiaria'})
M1_2017 =  M1_2017.drop(['T.Minima'], axis = 1)

print(M1_2017)
M1_2017.head()

      CodigoNacional                            NombreEstacion  \
0             180005                     Chacalluta, Arica Ap.   
1             180005                     Chacalluta, Arica Ap.   
2             180005                     Chacalluta, Arica Ap.   
3             180005                     Chacalluta, Arica Ap.   
4             180005                     Chacalluta, Arica Ap.   
...              ...                                       ...   
998           950001  C.M.A. Eduardo Frei Montalva, Antártica    
999           950001  C.M.A. Eduardo Frei Montalva, Antártica    
1000          950001  C.M.A. Eduardo Frei Montalva, Antártica    
1001          950001  C.M.A. Eduardo Frei Montalva, Antártica    
1002          950001  C.M.A. Eduardo Frei Montalva, Antártica    

                Latitud  Altura   Año  Mes  Dia  SumaDiaria  
0      18&deg 21' 5'' S      63  2017    1    1         0.0  
1      18&deg 21' 5'' S      63  2017    1    2         0.0  
2      18&deg 21' 5''

Unnamed: 0,CodigoNacional,NombreEstacion,Latitud,Altura,Año,Mes,Dia,SumaDiaria
0,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2017,1,1,0.0
1,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2017,1,2,0.0
2,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2017,1,3,0.0
3,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2017,1,4,0.0
4,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2017,1,5,0.0


### Se soluciona: faltas de etiquetas
Se observa

In [7]:
M1_2022 = pd.read_csv(r'C:\Yop\Datasets\precipitaciones\2021-2023\precipitacion_012022.csv', sep =';', header= None)
M1_2022.head()

Unnamed: 0,0,1,2,3,4,5,6,7
0,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,1,0.0
1,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,2,0.0
2,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,3,0.0
3,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,4,0.0
4,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,5,0.0


In [8]:
without_names = glob.glob(r'C:\Yop\Datasets\precipitaciones\2021-2023\precipitacion_*.csv')
data_frames = []
for precipitacion_ in without_names:             
    datos = pd.read_csv(precipitacion_, sep = ';', header = None, encoding= ' Latin-1')
    data_frames.append(datos)


p2s2021_1s2023 = pd.concat(data_frames, ignore_index = True)

p2s2021_1s2023.head()

Unnamed: 0,0,1,2,3,4,5,6,7
0,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,1,0.0
1,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,2,0.0
2,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,3,0.0
3,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,4,0.0
4,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,5,0.0


In [9]:
p2s2021_1s2023.columns = ['CodigoNacional', 'NombreEstacion', 'Latidud', 'Altura', 'Año', 'Mes', 'Dia', 'SumaDiaria']

p2s2021_1s2023.head()

Unnamed: 0,CodigoNacional,NombreEstacion,Latidud,Altura,Año,Mes,Dia,SumaDiaria
0,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,1,0.0
1,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,2,0.0
2,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,3,0.0
3,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,4,0.0
4,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,5,0.0


In [10]:
p2s2021_1s2023 = p2s2021_1s2023.sort_values(by='CodigoNacional')
p2s2021_1s2023.drop_duplicates()
print(p2s2021_1s2023)

       CodigoNacional                             NombreEstacion  \
0              180005                      Chacalluta, Arica Ap.   
7948           180005                      Chacalluta, Arica Ap.   
7947           180005                      Chacalluta, Arica Ap.   
7946           180005                      Chacalluta, Arica Ap.   
7945           180005                      Chacalluta, Arica Ap.   
...               ...                                        ...   
20885          950001  C.M.A. Eduardo Frei Montalva, AntÃ¡rtica    
20884          950001  C.M.A. Eduardo Frei Montalva, AntÃ¡rtica    
20883          950001  C.M.A. Eduardo Frei Montalva, AntÃ¡rtica    
20881          950001  C.M.A. Eduardo Frei Montalva, AntÃ¡rtica    
23905          950001   C.M.A. Eduardo Frei Montalva, Antártica    

                 Latidud  Altura   Año  Mes  Dia  SumaDiaria  
0      18&deg 21' 20'' S      50  2022    1    1         0.0  
7948   18&deg 21' 20'' S      50  2022    5   29         

### Se corrige: las etiquetas de 2018

In [11]:
with_names = glob.glob(r'C:\Yop\Datasets\precipitaciones\precipitacion_*2018.csv')
data_frames = []


In [12]:
for precipitacion_ in with_names:             
    datos = pd.read_csv(precipitacion_, sep = ';', encoding= ' Latin-1')
    data_frames.append(datos)


s2018 = pd.concat(data_frames, ignore_index = True)

s2018.head()

Unnamed: 0,ï»¿CodigoNacional,NombreEstacion,Latitud,Altura,AÃÂ±o,Mes,Dia,SumaDiaria,CodigoNacional,AÃ±o
0,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2018.0,1,1,0.0,,
1,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2018.0,1,2,0.0,,
2,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2018.0,1,3,0.0,,
3,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2018.0,1,4,0.0,,
4,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2018.0,1,5,0.0,,


In [13]:
s2018.columns = ['CodigoNacional', 'NombreEstacion', 'Latitud', 'Altura', 'Año', 'Mes', 'Dia', 'SumaDiaria', 'CodigoNacional_', 'Año_' ]
print(s2018)

       CodigoNacional                             NombreEstacion  \
0            180005.0                      Chacalluta, Arica Ap.   
1            180005.0                      Chacalluta, Arica Ap.   
2            180005.0                      Chacalluta, Arica Ap.   
3            180005.0                      Chacalluta, Arica Ap.   
4            180005.0                      Chacalluta, Arica Ap.   
...               ...                                        ...   
11738             NaN  C.M.A. Eduardo Frei Montalva, AntÃ¡rtica    
11739             NaN  C.M.A. Eduardo Frei Montalva, AntÃ¡rtica    
11740             NaN  C.M.A. Eduardo Frei Montalva, AntÃ¡rtica    
11741             NaN  C.M.A. Eduardo Frei Montalva, AntÃ¡rtica    
11742             NaN  C.M.A. Eduardo Frei Montalva, AntÃ¡rtica    

                 Latitud  Altura     Año  Mes  Dia  SumaDiaria  \
0       18&deg 21' 5'' S      63  2018.0    1    1         0.0   
1       18&deg 21' 5'' S      63  2018.0    1    2 

Filas con NaNs debido a la mezcla de columnas, por lo que se reemplaza mutuamente

In [14]:
s2018['CodigoNacional'] = s2018['CodigoNacional'].fillna(s2018['CodigoNacional_'])
s2018['Año'] = s2018['Año'].fillna(s2018['Año_'])
# eliminamos las columnas initulizables
s2018.drop(['Año_', 'CodigoNacional_'], axis = 1, inplace= True)

s2018.head()

Unnamed: 0,CodigoNacional,NombreEstacion,Latitud,Altura,Año,Mes,Dia,SumaDiaria
0,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2018.0,1,1,0.0
1,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2018.0,1,2,0.0
2,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2018.0,1,3,0.0
3,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2018.0,1,4,0.0
4,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2018.0,1,5,0.0


Todo 2018 corregido debido a los errores de etiqueta, se procede a exportar el excel para a continuacion importarlo


In [15]:
M1_2017.to_csv(r'C:\Yop\Datasets\precipitaciones\2016-2021\precipitacion_012017.csv', index = False, sep = ';')
p2s2021_1s2023.to_csv('C:\Yop\Datasets\precipitaciones\sols_data\precipitacion_2s2021-2023.csv', index = False)
s2018.to_csv('C:\Yop\Datasets\precipitaciones\sols_data\precipitacion_2018.csv', index = False)

  p2s2021_1s2023.to_csv('C:\Yop\Datasets\precipitaciones\sols_data\precipitacion_2s2021-2023.csv', index = False)
  s2018.to_csv('C:\Yop\Datasets\precipitaciones\sols_data\precipitacion_2018.csv', index = False)


Con concordancia, procesar los demas años y luego en un solo conjunto

In [16]:
docs_2016_2021 = glob.glob(r'C:\Yop\Datasets\precipitaciones\2016-2021\precipitacion_*.csv')
data_frames = []

for precipitacion_ in docs_2016_2021:             
    datos = pd.read_csv(precipitacion_, sep = ';', encoding= ' Latin-1')
    data_frames.append(datos)


s2016_2021 = pd.concat(data_frames, ignore_index = True)

s2016_2021.head()

Unnamed: 0,CodigoNacional,NombreEstacion,Latitud,Altura,AÃ±o,Mes,Dia,SumaDiaria,Año
0,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,1,0.0,
1,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,2,0.0,
2,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,3,0.0,
3,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,4,0.0,
4,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,5,0.0,


In [17]:
s2016_2021.columns = ['CodigoNacional', 'NombreEstacion', 'Latitud', 'Altura', 'Año', 'Mes', 'Dia', 'SumaDiaria', 'Año_']
s2016_2021['Año'] = s2016_2021['Año'].fillna(s2016_2021['Año_'])

s2016_2021.drop(['Año_'], axis = 1, inplace= True)
s2016_2021.head()

Unnamed: 0,CodigoNacional,NombreEstacion,Latitud,Altura,Año,Mes,Dia,SumaDiaria
0,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,1,0.0
1,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,2,0.0
2,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,3,0.0
3,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,4,0.0
4,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,5,0.0


In [18]:
s2016_2021.to_csv('C:\Yop\Datasets\precipitaciones\sols_data\precipitacion_2016_1s2021.csv', index = False)

  s2016_2021.to_csv('C:\Yop\Datasets\precipitaciones\sols_data\precipitacion_2016_1s2021.csv', index = False)


Así, se procesa el conjunto 2016-2s2023

In [19]:
docs = glob.glob(r'C:\Yop\Datasets\precipitaciones\sols_data\precipitacion_*.csv')
data_frames = []

for precipitacion_ in docs:             
    datos = pd.read_csv(precipitacion_, sep = ',', encoding= ' Latin-1')
    data_frames.append(datos)


precipitacion_chile = pd.concat(data_frames, ignore_index = True)

precipitacion_chile.head()

Unnamed: 0,CodigoNacional,NombreEstacion,Latitud,Altura,AÃ±o,Mes,Dia,SumaDiaria,Latidud
0,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,1,0.0,
1,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,2,0.0,
2,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,3,0.0,
3,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,4,0.0,
4,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,5,0.0,


In [20]:
precipitacion_chile.columns = ['CodigoNacional', 'Region', 'Latitud', 'Altura', 'Año', 'Mes', 'Dia', 'Precipitación', 'Latitud_']
precipitacion_chile.head()

Unnamed: 0,CodigoNacional,Region,Latitud,Altura,Año,Mes,Dia,Precipitación,Latitud_
0,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,1,0.0,
1,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,2,0.0,
2,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,3,0.0,
3,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,4,0.0,
4,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,5,0.0,


In [21]:
# Se pasan las fechas al tipo int y float para truncar valores, y luego a str para pasar a tipo fecha
precipitacion_chile['CodigoNacional'] = precipitacion_chile['CodigoNacional'].astype(float)

precipitacion_chile['CodigoNacional'] = precipitacion_chile['CodigoNacional'].astype(int)
precipitacion_chile['Año'] = precipitacion_chile['Año'].astype(float)
precipitacion_chile['Año'] = precipitacion_chile['Año'].astype(int)
precipitacion_chile['Mes'] = precipitacion_chile['Mes'].astype(int)
precipitacion_chile['Dia'] = precipitacion_chile['Dia'].astype(int)

# Se juntan las 3 columnas en formato string para cambiarla al tipo fecha
precipitacion_chile['Año'] = precipitacion_chile['Año'].astype(str)
precipitacion_chile['Mes'] = precipitacion_chile['Mes'].astype(str)
precipitacion_chile['Dia'] = precipitacion_chile['Dia'].astype(str)

precipitacion_chile.head()

Unnamed: 0,CodigoNacional,Region,Latitud,Altura,Año,Mes,Dia,Precipitación,Latitud_
0,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,1,0.0,
1,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,2,0.0,
2,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,3,0.0,
3,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,4,0.0,
4,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,5,0.0,


In [22]:
precipitacion_chile['Fecha'] = precipitacion_chile['Año'] + precipitacion_chile['Mes'] + precipitacion_chile['Dia']
precipitacion_chile['Fecha'] = pd.to_datetime(precipitacion_chile['Fecha'], format = '%Y%m%d')
precipitacion_chile.info()
precipitacion_chile.drop(['Año', 'Mes', 'Dia'], axis = 1, inplace= True)
precipitacion_chile.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 88573 entries, 0 to 88572
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   CodigoNacional  88573 non-null  int32         
 1   Region          88573 non-null  object        
 2   Latitud         64667 non-null  object        
 3   Altura          88573 non-null  int64         
 4   Año             88573 non-null  object        
 5   Mes             88573 non-null  object        
 6   Dia             88573 non-null  object        
 7   Precipitación   88053 non-null  float64       
 8   Latitud_        23906 non-null  object        
 9   Fecha           88573 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int32(1), int64(1), object(6)
memory usage: 6.4+ MB


Unnamed: 0,CodigoNacional,Region,Latitud,Altura,Precipitación,Latitud_,Fecha
0,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,0.0,,2016-01-01
1,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,0.0,,2016-01-02
2,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,0.0,,2016-01-03
3,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,0.0,,2016-01-04
4,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,0.0,,2016-01-05


In [23]:
precipitacion_chile['Latitud'] = precipitacion_chile['Latitud'].fillna(precipitacion_chile['Latitud_'])
#confirmamos que ya no tengamos Nans en Latitud
precipitacion_chile.isna().any()
#borramos columna
precipitacion_chile.drop(['Latitud_'], axis = 1, inplace= True)
precipitacion_chile.head()

Unnamed: 0,CodigoNacional,Region,Latitud,Altura,Precipitación,Fecha
0,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,0.0,2016-01-01
1,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,0.0,2016-01-02
2,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,0.0,2016-01-03
3,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,0.0,2016-01-04
4,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,0.0,2016-01-05


Antes de seguir limpiando los datos, limpiaremos ciertos nombres que se pueden confundir en el siguiente proceso

In [24]:
precipitacion_chile['Region'].replace('Rodelillo, Ad.', 'Rodelillo Ad.', inplace= True)
precipitacion_chile['Region'].replace('Santo Domingo, Ad.', 'Santo Domingo Ad.', inplace= True)
precipitacion_chile['Region'].replace('Quinta Normal, Santiago', 'Quinta Normal Santiago', inplace= True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  precipitacion_chile['Region'].replace('Rodelillo, Ad.', 'Rodelillo Ad.', inplace= True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  precipitacion_chile['Region'].replace('Santo Domingo, Ad.', 'Santo Domingo Ad.', inplace= True)
The behavior will change in pandas 3.0. This inp

In [25]:
# vamos a cambiar el tipo de dato de los nombres de las regiones

precipitacion_chile['Region'] = precipitacion_chile['Region'].astype(str)
# y luego vamos a dejar el nombre regional
# ^. indica el inicio *, indica que eliminares hasta la primera coma, y \s hasta despues del primer espacio en blanco
precipitacion_chile['Region'] = precipitacion_chile['Region'].str.replace('^.*,\s*', '', regex=True) 
# simplifamos el nombre
precipitacion_chile = precipitacion_chile.drop_duplicates()

precipitacion_chile.info()
precipitacion_chile.head()

<class 'pandas.core.frame.DataFrame'>
Index: 86426 entries, 0 to 88572
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   CodigoNacional  86426 non-null  int32         
 1   Region          86426 non-null  object        
 2   Latitud         86426 non-null  object        
 3   Altura          86426 non-null  int64         
 4   Precipitación   85908 non-null  float64       
 5   Fecha           86426 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int32(1), int64(1), object(2)
memory usage: 4.3+ MB


  precipitacion_chile['Region'] = precipitacion_chile['Region'].str.replace('^.*,\s*', '', regex=True)


Unnamed: 0,CodigoNacional,Region,Latitud,Altura,Precipitación,Fecha
0,180005,Arica Ap.,18&deg 21' 5'' S,63,0.0,2016-01-01
1,180005,Arica Ap.,18&deg 21' 5'' S,63,0.0,2016-01-02
2,180005,Arica Ap.,18&deg 21' 5'' S,63,0.0,2016-01-03
3,180005,Arica Ap.,18&deg 21' 5'' S,63,0.0,2016-01-04
4,180005,Arica Ap.,18&deg 21' 5'' S,63,0.0,2016-01-05


Se confirman los nombres de las regiones debido a que habian caracteres en latín

In [26]:
precipitacion_chile['Region'].unique()

array(['Arica Ap.', 'Diego Aracena Iquique Ap.', 'Calama Ad.',
       'Cerro Moreno  Antofagasta  Ap.', 'Mataveri  Isla de Pascua Ap.',
       'Caldera  Ad.', 'La Serena Ad.', 'Rodelillo Ad.', 'Tobalaba Ad.',
       'Quinta Normal Santiago', 'Pudahuel Santiago ',
       'Santo Domingo Ad.', 'EstaciÃ\x83Â³n MeteorolÃ\x83Â³gica.',
       'CuricÃ\x83Â³ Ad.', 'ChillÃ\x83Â¡n Ad.', 'ConcepciÃ\x83Â³n.',
       'Los Angeles Ad.', 'Temuco Ad.', 'Valdivia Ad.', 'Osorno Ad.',
       'El Tepual  Puerto Montt Ap.', 'FutaleufÃ\x83Âº Ad.',
       'Alto Palena Ad.', 'Puerto AysÃ\x83Â©n Ad.', 'Coyhaique Ad.',
       'Balmaceda Ad.', 'Chile Chico Ad.', 'Lord Cochrane Ad.',
       'Puerto Natales Ad.', 'Punta Arenas Ap.', 'Porvenir Ad.',
       'Pto Williams Ad.', 'AntÃ\x83Â¡rtica ', 'ConcepciÃ\x83Â³n Ap.',
       'EstaciÃ\x83Â\x83Ã\x82Â³n MeteorolÃ\x83Â\x83Ã\x82Â³gica.',
       'CuricÃ\x83Â\x83Ã\x82Â³ Ad.', 'ChillÃ\x83Â\x83Ã\x82Â¡n Ad.',
       'ConcepciÃ\x83Â\x83Ã\x82Â³n.', 'FutaleufÃ\x83Â\x83Ã\x82Âº A

se observan multiples fallas debido a tildes y demás que no se reconocieron debidamente. Se reemplaza con los nombres correctos

In [27]:
precipitacion_chile['Region'].replace('ChillÃ\x83Â¡n Ad.', 'Chillan', inplace= True)
precipitacion_chile['Region'].replace('ConcepciÃ\x83Â³n.', 'Concepcion', inplace= True)
precipitacion_chile['Region'].replace('FutaleufÃ\x83Âº Ad.', 'Futaleufu', inplace= True)
precipitacion_chile['Region'].replace('Puerto AysÃ\x83Â©n Ad.', 'Puerto aysen', inplace= True)
precipitacion_chile['Region'].replace('AntÃ\x83Â¡rtica ', 'Antartica', inplace= True)

precipitacion_chile['Region'].replace('ConcepciÃ\x83Â³n Ap.', 'Concepcion', inplace= True)
precipitacion_chile['Region'].replace('AntÃ\x83Â\x83Ã\x82Â¡rtica', 'Antartica', inplace= True)

precipitacion_chile['Region'].replace('EstaciÃ\x83Â³n MeteorolÃ\x83Â³gica.', 'Juan Fernandez', inplace= True)
precipitacion_chile['Region'].replace('CuricÃ\x83Â³ Ad.', 'Curico', inplace= True)
precipitacion_chile['Region'].replace('EstaciÃ\x83Â\x83Ã\x82Â³n MeteorolÃ\x83Â\x83Ã\x82Â³gica.', 'Juan Fernandez', inplace= True)
precipitacion_chile['Region'].replace('CuricÃ\x83Â\x83Ã\x82Â³ Ad.', 'Curico', inplace= True)
precipitacion_chile['Region'].replace('ChillÃ\x83Â\x83Ã\x82Â¡n Ad.', 'Chillan', inplace= True)
precipitacion_chile['Region'].replace('ConcepciÃ\x83Â\x83Ã\x82Â³n.', 'Concepcion', inplace= True)


precipitacion_chile['Region'].unique()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  precipitacion_chile['Region'].replace('ChillÃ\x83Â¡n Ad.', 'Chillan', inplace= True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  precipitacion_chile['Region'].replace('ConcepciÃ\x83Â³n.', 'Concepcion', inplace= True)
The behavior will change in pandas 3.0. This inplace method

array(['Arica Ap.', 'Diego Aracena Iquique Ap.', 'Calama Ad.',
       'Cerro Moreno  Antofagasta  Ap.', 'Mataveri  Isla de Pascua Ap.',
       'Caldera  Ad.', 'La Serena Ad.', 'Rodelillo Ad.', 'Tobalaba Ad.',
       'Quinta Normal Santiago', 'Pudahuel Santiago ',
       'Santo Domingo Ad.', 'Juan Fernandez', 'Curico', 'Chillan',
       'Concepcion', 'Los Angeles Ad.', 'Temuco Ad.', 'Valdivia Ad.',
       'Osorno Ad.', 'El Tepual  Puerto Montt Ap.', 'Futaleufu',
       'Alto Palena Ad.', 'Puerto aysen', 'Coyhaique Ad.',
       'Balmaceda Ad.', 'Chile Chico Ad.', 'Lord Cochrane Ad.',
       'Puerto Natales Ad.', 'Punta Arenas Ap.', 'Porvenir Ad.',
       'Pto Williams Ad.', 'Antartica', 'FutaleufÃ\x83Â\x83Ã\x82Âº Ad.',
       'Puerto AysÃ\x83Â\x83Ã\x82Â©n Ad.', 'AntÃ\x83Â\x83Ã\x82Â¡rtica ',
       'EstaciÃ³n MeteorolÃ³gica.', 'CuricÃ³ Ad.', 'ChillÃ¡n Ad.',
       'ConcepciÃ³n Ap.', 'FutaleufÃº Ad.', 'Puerto AysÃ©n Ad.',
       'AntÃ¡rtica '], dtype=object)

In [28]:
precipitacion_chile['Region'].replace('FutaleufÃ\x83Â\x83Ã\x82Âº Ad.', 'Futaleufu', inplace= True)

precipitacion_chile['Region'].replace('Puerto AysÃ\x83Â\x83Ã\x82Â©n Ad.', 'Puerto aysen', inplace= True)
precipitacion_chile['Region'].replace('AntÃ\x83Â\x83Ã\x82Â¡rtica ', 'Antartica', inplace= True)
precipitacion_chile['Region'].replace('EstaciÃ³n MeteorolÃ³gica.', 'Juan Fernandez', inplace= True)
precipitacion_chile['Region'].replace('CuricÃ³ Ad.', 'Curico', inplace= True)
precipitacion_chile['Region'].replace('ChillÃ¡n Ad.', 'Chillan', inplace= True)

precipitacion_chile['Region'].replace('ConcepciÃ³n Ap.', 'Concepcion', inplace= True)
precipitacion_chile['Region'].replace('FutaleufÃº Ad.', 'Futaleufu', inplace= True)
precipitacion_chile['Region'].replace('Puerto AysÃ©n Ad.', 'Puerto aysen', inplace= True)
precipitacion_chile['Region'].replace('AntÃ¡rtica ', 'Antartica', inplace= True)



precipitacion_chile['Region'].unique()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  precipitacion_chile['Region'].replace('FutaleufÃ\x83Â\x83Ã\x82Âº Ad.', 'Futaleufu', inplace= True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  precipitacion_chile['Region'].replace('Puerto AysÃ\x83Â\x83Ã\x82Â©n Ad.', 'Puerto aysen', inplace= True)
The behavior will change in 

array(['Arica Ap.', 'Diego Aracena Iquique Ap.', 'Calama Ad.',
       'Cerro Moreno  Antofagasta  Ap.', 'Mataveri  Isla de Pascua Ap.',
       'Caldera  Ad.', 'La Serena Ad.', 'Rodelillo Ad.', 'Tobalaba Ad.',
       'Quinta Normal Santiago', 'Pudahuel Santiago ',
       'Santo Domingo Ad.', 'Juan Fernandez', 'Curico', 'Chillan',
       'Concepcion', 'Los Angeles Ad.', 'Temuco Ad.', 'Valdivia Ad.',
       'Osorno Ad.', 'El Tepual  Puerto Montt Ap.', 'Futaleufu',
       'Alto Palena Ad.', 'Puerto aysen', 'Coyhaique Ad.',
       'Balmaceda Ad.', 'Chile Chico Ad.', 'Lord Cochrane Ad.',
       'Puerto Natales Ad.', 'Punta Arenas Ap.', 'Porvenir Ad.',
       'Pto Williams Ad.', 'Antartica'], dtype=object)

In [29]:
precipitacion_chile.isna().any()

CodigoNacional    False
Region            False
Latitud           False
Altura            False
Precipitación      True
Fecha             False
dtype: bool

Hay datos nulos en filas de precipitación, esto debido a datos faltantes en los csv

In [31]:
Nans = precipitacion_chile.loc[precipitacion_chile['Precipitación'].isnull()].sort_values(['Region', 'Fecha'])

Nans.to_csv('C:\Yop\Datasets\precipitaciones\precipitacion_Nans.csv', index= False)
Nans.head()

  Nans.to_csv('C:\Yop\Datasets\precipitaciones\precipitacion_Nans.csv', index= False)


Unnamed: 0,CodigoNacional,Region,Latitud,Altura,Precipitación,Fecha
80672,430004,Alto Palena Ad.,43&deg 36' 42'' S,256,,2021-11-20
80642,430004,Alto Palena Ad.,43&deg 36' 42'' S,256,,2021-11-27
81149,430004,Alto Palena Ad.,43&deg 36' 42'' S,256,,2022-03-23
81055,430004,Alto Palena Ad.,43&deg 36' 42'' S,256,,2022-06-11
81041,430004,Alto Palena Ad.,43&deg 36' 42'' S,256,,2022-06-18


Entonces, reemplazar los Nans con la mediana que se buscaran por temporada de cada region, es decir si falta un dato en otoño de valdivia de 2020 entonces se buscara la mediana de los datos entre dicha temporada de otoño de la región. Asi podremos limpiar los datos faltantes. Se hará con un umbral del 50%.

* Verano: desde el 21 del 12 (diciembre) hasta el 20 del 3 (marzo) 
* Otoño: desde el 20 del 3 (marzo) al 21 del 6 (junio)
* Invierno: desde el 21 del 6 (junio) al 21 del 9 (septiembre) 
* Primavera: desde el 21 del 9 (septiembre) al 21 del 12 (diciembre)

Primero se hará Drop a cualquier dato fuera de la fecha estudiada, y luego definimos una función "Nans_reemplazo".

In [106]:
precipitacion_chile.drop(precipitacion_chile[(precipitacion_chile['Fecha'] >= '2023-7-01') & (precipitacion_chile['Fecha'] <= '2023-12-31')].index, inplace=True)

In [157]:
precipitacion_chile.loc[precipitacion_chile['Precipitación'].isnull()].sort_values(['Region', 'Fecha']).head()

Unnamed: 0,CodigoNacional,Region,Latitud,Altura,Precipitación,Fecha


In [156]:
Nans_reemplazo(precipitacion_chile, 'Precipitación', 'Porvenir Ad.', '2022-09-21', '2022-12-21', 0.5)

Se reemplazo correctamente, con el promedio 0.23917525773195875


Unnamed: 0,CodigoNacional,Region,Latitud,Altura,Precipitación,Fecha
0,180005,Arica Ap.,18&deg 21' 5'' S,63,0.0,2016-01-01
1,180005,Arica Ap.,18&deg 21' 5'' S,63,0.0,2016-01-02
2,180005,Arica Ap.,18&deg 21' 5'' S,63,0.0,2016-01-03
3,180005,Arica Ap.,18&deg 21' 5'' S,63,0.0,2016-01-04
4,180005,Arica Ap.,18&deg 21' 5'' S,63,0.0,2016-01-05
...,...,...,...,...,...,...
88568,950001,Antartica,62&deg 11' 31'' S,45,0.0,2021-11-15
88569,950001,Antartica,62&deg 11' 31'' S,45,0.0,2021-11-14
88570,950001,Antartica,62&deg 11' 31'' S,45,0.0,2021-11-13
88571,950001,Antartica,62&deg 11' 31'' S,45,0.0,2021-11-11


In [163]:
precipitacion_chile.info()
precipitacion_chile.isna().any()

<class 'pandas.core.frame.DataFrame'>
Index: 85576 entries, 0 to 88572
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   CodigoNacional  85576 non-null  int32         
 1   Region          85576 non-null  object        
 2   Latitud         85576 non-null  object        
 3   Altura          85576 non-null  int64         
 4   Precipitación   85576 non-null  float64       
 5   Fecha           85576 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int32(1), int64(1), object(2)
memory usage: 4.2+ MB


CodigoNacional    False
Region            False
Latitud           False
Altura            False
Precipitación     False
Fecha             False
dtype: bool

Así se da concluido el proceso y limpieza. Procedemos a confirmar y luego guardar en un nuevo archivo csv

In [160]:
print(precipitacion_chile)
precipitacion_chile.drop_duplicates(inplace=True)
# precipitacion_chile.to_csv('C:\\Yop\\Datasets\\precipitaciones\\precipitacion_chile.csv', index=False), Se ha guardado sin Nans

       CodigoNacional     Region            Latitud  Altura  Precipitación  \
0              180005  Arica Ap.   18&deg 21' 5'' S      63            0.0   
1              180005  Arica Ap.   18&deg 21' 5'' S      63            0.0   
2              180005  Arica Ap.   18&deg 21' 5'' S      63            0.0   
3              180005  Arica Ap.   18&deg 21' 5'' S      63            0.0   
4              180005  Arica Ap.   18&deg 21' 5'' S      63            0.0   
...               ...        ...                ...     ...            ...   
88568          950001  Antartica  62&deg 11' 31'' S      45            0.0   
88569          950001  Antartica  62&deg 11' 31'' S      45            0.0   
88570          950001  Antartica  62&deg 11' 31'' S      45            0.0   
88571          950001  Antartica  62&deg 11' 31'' S      45            0.0   
88572          950001  Antartica  62&deg 11' 31'' S      45            0.0   

           Fecha  
0     2016-01-01  
1     2016-01-02  
2     

## **Proceso y Limpieza, Temperaturas**

Debe verse relativamente así el Data frame, sin embargo es claro que hay nombres de columnas erroneas, T.Maxima y T.Minima estan invertidas

In [2]:
t1_2016 = pd.read_csv(r'C:\Yop\Datasets\Temperaturas\2016_1s2021\temperatura_012016.csv', sep = ';')
t1_2016.head()

Unnamed: 0,CodigoNacional,NombreEstacion,Latitud,Altura,Año,Mes,Dia,T.Maxima,T.Minima
0,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,1,20.6,24.4
1,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,2,21.3,25.1
2,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,3,19.0,24.8
3,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,4,18.1,25.0
4,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,5,21.5,25.6


In [3]:
t_names = glob.glob('C:\\Yop\\Datasets\\Temperaturas\\2016_1s2021\\temperatura_*.csv')
data_frames = []
for precipitacion_ in t_names:             
    datos = pd.read_csv(precipitacion_, sep = ';', encoding= ' Latin-1')
    data_frames.append(datos)


t2016_1S2021 = pd.concat(data_frames, ignore_index = True)

t2016_1S2021.head()

Unnamed: 0,CodigoNacional,NombreEstacion,Latitud,Altura,AÃ±o,Mes,Dia,T.Maxima,T.Minima,ï»¿CodigoNacional,Año
0,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,1,20.6,24.4,,
1,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,2,21.3,25.1,,
2,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,3,19.0,24.8,,
3,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,4,18.1,25.0,,
4,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,5,21.5,25.6,,


In [4]:
t2016_1S2021.columns = ['CodigoNacional', 'NombreEstacion', 'Latitud', 'Altura', 'Año', 'Mes', 'Dia', 'T.Minima', 'T.Maxima', 'CodigoNacional_', 'Año_']

t2016_1S2021['CodigoNacional'] = t2016_1S2021['CodigoNacional'].fillna(t2016_1S2021['CodigoNacional_'])
t2016_1S2021['Año'] = t2016_1S2021['Año'].fillna(t2016_1S2021['Año_'])

In [5]:
t2016_1S2021.drop(['CodigoNacional_', 'Año_'], axis = 1, inplace = True)
t2016_1S2021.head()

Unnamed: 0,CodigoNacional,NombreEstacion,Latitud,Altura,Año,Mes,Dia,T.Minima,T.Maxima
0,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,1,20.6,24.4
1,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,2,21.3,25.1
2,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,3,19.0,24.8
3,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,4,18.1,25.0
4,180005.0,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016.0,1,5,21.5,25.6


In [256]:
t2016_1S2021.to_csv("C:\\Yop\\Datasets\\Temperaturas\\2016_1s2021\\t_2016_1S2021.csv", index = False)

Se limpian aquellos sin etiquetas

In [6]:
t_withoutnames = glob.glob('C:\\Yop\\Datasets\\Temperaturas\\temperatura_*.csv')
data_frames = []
for precipitacion_ in t_withoutnames:             
    datos = pd.read_csv(precipitacion_, sep = ';', header= None, encoding= ' Latin-1')
    data_frames.append(datos)


t2021_2023 = pd.concat(data_frames, ignore_index = True)

t2021_2023.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,1,16.8,24.0
1,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,2,16.9,24.3
2,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,3,17.1,24.0
3,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,4,17.3,24.7
4,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,5,16.9,24.3


In [7]:
t2021_2023.columns = ['CodigoNacional', 'NombreEstacion', 'Latitud', 'Altura', 'Año', 'Mes', 'Dia', 'T.Minima', 'T.Maxima']
t2021_2023.head()

Unnamed: 0,CodigoNacional,NombreEstacion,Latitud,Altura,Año,Mes,Dia,T.Minima,T.Maxima
0,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,1,16.8,24.0
1,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,2,16.9,24.3
2,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,3,17.1,24.0
3,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,4,17.3,24.7
4,180005,"Chacalluta, Arica Ap.",18&deg 21' 20'' S,50,2022,1,5,16.9,24.3


In [8]:
T_chile = pd.concat([t2016_1S2021, t2021_2023], ignore_index = True)
T_chile.info()
print(T_chile)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 89807 entries, 0 to 89806
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   CodigoNacional  89807 non-null  float64
 1   NombreEstacion  89807 non-null  object 
 2   Latitud         89807 non-null  object 
 3   Altura          89807 non-null  int64  
 4   Año             89807 non-null  float64
 5   Mes             89807 non-null  int64  
 6   Dia             89807 non-null  int64  
 7   T.Minima        88104 non-null  float64
 8   T.Maxima        88209 non-null  float64
dtypes: float64(4), int64(3), object(2)
memory usage: 6.2+ MB
       CodigoNacional                            NombreEstacion  \
0            180005.0                     Chacalluta, Arica Ap.   
1            180005.0                     Chacalluta, Arica Ap.   
2            180005.0                     Chacalluta, Arica Ap.   
3            180005.0                     Chacalluta, Arica Ap.   


Se convierten los tipos de datos; float e int a tipo Date

In [9]:
T_chile['CodigoNacional'] = T_chile['CodigoNacional'].astype(int)

In [10]:
T_chile['Año'] = T_chile['Año'].astype(float)
T_chile['Año'] = T_chile['Año'].astype(int)

T_chile['Año'] = T_chile['Año'].astype(str)
T_chile['Mes'] = T_chile['Mes'].astype(str)
T_chile['Dia'] = T_chile['Dia'].astype(str)

T_chile['Fecha'] = T_chile['Año'] + T_chile['Mes'] + T_chile['Dia']
T_chile['Fecha'] = T_chile['Fecha'].astype(str)

T_chile['Fecha'] = pd.to_datetime(T_chile['Fecha'], format = '%Y%m%d')

T_chile.head()

Unnamed: 0,CodigoNacional,NombreEstacion,Latitud,Altura,Año,Mes,Dia,T.Minima,T.Maxima,Fecha
0,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,1,20.6,24.4,2016-01-01
1,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,2,21.3,25.1,2016-01-02
2,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,3,19.0,24.8,2016-01-03
3,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,4,18.1,25.0,2016-01-04
4,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,2016,1,5,21.5,25.6,2016-01-05


In [11]:
T_chile.drop(['Año', 'Mes', 'Dia'], axis = 1, inplace=True)

T_chile.head()

Unnamed: 0,CodigoNacional,NombreEstacion,Latitud,Altura,T.Minima,T.Maxima,Fecha
0,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,20.6,24.4,2016-01-01
1,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,21.3,25.1,2016-01-02
2,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,19.0,24.8,2016-01-03
3,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,18.1,25.0,2016-01-04
4,180005,"Chacalluta, Arica Ap.",18&deg 21' 5'' S,63,21.5,25.6,2016-01-05


In [12]:
T_chile['NombreEstacion'].replace('Rodelillo, Ad.', 'Rodelillo Ad.', inplace= True)
T_chile['NombreEstacion'].replace('Santo Domingo, Ad.', 'Santo Domingo Ad.', inplace= True)
T_chile['NombreEstacion'].replace('Quinta Normal, Santiago', 'Quinta Normal Santiago', inplace= True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  T_chile['NombreEstacion'].replace('Rodelillo, Ad.', 'Rodelillo Ad.', inplace= True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  T_chile['NombreEstacion'].replace('Santo Domingo, Ad.', 'Santo Domingo Ad.', inplace= True)
The behavior will change in pandas 3.0. This inplace met

In [13]:
# vamos a cambiar el tipo de dato de los nombres de las regiones

T_chile['NombreEstacion'] = T_chile['NombreEstacion'].astype(str)
# ^. indica el inicio *, indica que eliminar hasta la primera coma, y \s hasta despues del primer espacio en blanco
T_chile['NombreEstacion'] = T_chile['NombreEstacion'].str.replace('^.*,\s*', '', regex=True) 
T_chile.head()

  T_chile['NombreEstacion'] = T_chile['NombreEstacion'].str.replace('^.*,\s*', '', regex=True)


Unnamed: 0,CodigoNacional,NombreEstacion,Latitud,Altura,T.Minima,T.Maxima,Fecha
0,180005,Arica Ap.,18&deg 21' 5'' S,63,20.6,24.4,2016-01-01
1,180005,Arica Ap.,18&deg 21' 5'' S,63,21.3,25.1,2016-01-02
2,180005,Arica Ap.,18&deg 21' 5'' S,63,19.0,24.8,2016-01-03
3,180005,Arica Ap.,18&deg 21' 5'' S,63,18.1,25.0,2016-01-04
4,180005,Arica Ap.,18&deg 21' 5'' S,63,21.5,25.6,2016-01-05


Se solucionan nombres

In [14]:
T_chile['NombreEstacion'].unique()

array(['Arica Ap.', 'Diego Aracena Iquique Ap.', 'Calama Ad.',
       'Cerro Moreno  Antofagasta  Ap.', 'Mataveri  Isla de Pascua Ap.',
       'Caldera  Ad.', 'La Serena Ad.', 'Rodelillo Ad.', 'Tobalaba Ad.',
       'Quinta Normal Santiago', 'Pudahuel Santiago ',
       'Santo Domingo Ad.', 'EstaciÃ³n MeteorolÃ³gica.', 'CuricÃ³ Ad.',
       'ChillÃ¡n Ad.', 'ConcepciÃ³n.', 'Los Angeles Ad.', 'Temuco Ad.',
       'Valdivia Ad.', 'Osorno Ad.', 'El Tepual  Puerto Montt Ap.',
       'FutaleufÃº Ad.', 'Alto Palena Ad.', 'Puerto AysÃ©n Ad.',
       'Coyhaique Ad.', 'Balmaceda Ad.', 'Chile Chico Ad.',
       'Lord Cochrane Ad.', 'Puerto Natales Ad.', 'Punta Arenas Ap.',
       'Porvenir Ad.', 'Pto Williams Ad.', 'AntÃ¡rtica ',
       'EstaciÃ\x83Â³n MeteorolÃ\x83Â³gica.', 'CuricÃ\x83Â³ Ad.',
       'ChillÃ\x83Â¡n Ad.', 'ConcepciÃ\x83Â³n.', 'FutaleufÃ\x83Âº Ad.',
       'Puerto AysÃ\x83Â©n Ad.', 'AntÃ\x83Â¡rtica ', 'ConcepciÃ³n Ap.',
       'Estación Meteorológica.', 'Curicó Ad.', 'Chillán Ad.'

In [15]:

T_chile['NombreEstacion'].replace('EstaciÃ³n MeteorolÃ³gica.', 'Juan Fernandez', inplace= True)
T_chile['NombreEstacion'].replace('CuricÃ³ Ad.', 'Curico', inplace= True)
T_chile['NombreEstacion'].replace('ChillÃ¡n Ad.', 'Chillan', inplace= True)

T_chile['NombreEstacion'].replace('ConcepciÃ³n.', 'Concepcion', inplace= True)
T_chile['NombreEstacion'].replace('FutaleufÃº Ad.', 'Futaleufu', inplace= True)

T_chile['NombreEstacion'].replace('Puerto AysÃ©n Ad.', 'Puerto aysen', inplace= True)
T_chile['NombreEstacion'].replace('AntÃ¡rtica ', 'Antartica', inplace= True)
T_chile['NombreEstacion'].replace('Puerto AysÃ©n Ad.', 'Puerto aysen', inplace= True)
T_chile['NombreEstacion'].replace('EstaciÃ\x83Â³n MeteorolÃ\x83Â³gica.', 'Juan Fernandez', inplace= True)

T_chile['NombreEstacion'].replace('CuricÃ\x83Â³ Ad.', 'Curico', inplace= True)

T_chile['NombreEstacion'].replace('ChillÃ\x83Â¡n Ad.', 'Chillan', inplace= True)
T_chile['NombreEstacion'].replace('ConcepciÃ\x83Â³n.', 'Concepcion', inplace= True)
T_chile['NombreEstacion'].replace('FutaleufÃ\x83Âº Ad.', 'Futaleufu', inplace= True)
T_chile['NombreEstacion'].replace('Puerto AysÃ\x83Â©n Ad.', 'Puerto aysen', inplace= True)

T_chile['NombreEstacion'].replace('AntÃ\x83Â¡rtica ', 'Antartica', inplace= True)

T_chile['NombreEstacion'].replace('ConcepciÃ³n Ap.', 'Concepcion', inplace= True)
T_chile['NombreEstacion'].replace('Estación Meteorológica.', 'Juan Fernandez', inplace= True)
T_chile['NombreEstacion'].replace('Antártica ', 'Antartica', inplace= True)

T_chile['NombreEstacion'].replace('Chillan', 'Chillán Ad.', inplace= True)
T_chile['NombreEstacion'].replace('Curico', 'Curicó Ad.', inplace= True)
T_chile['NombreEstacion'].replace('Concepcion', 'Concepción Ap.', inplace= True)

T_chile['NombreEstacion'].replace('Futaleufu', 'Futaleufú Ad.', inplace= True)
T_chile['NombreEstacion'].replace('Curico', 'Curicó Ad.', inplace= True)
T_chile['NombreEstacion'].replace('Concepcion', 'Concepción Ap.', inplace= True)
T_chile['NombreEstacion'].replace('Puerto Aysén Ad.', 'Puerto aysen', inplace= True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  T_chile['NombreEstacion'].replace('EstaciÃ³n MeteorolÃ³gica.', 'Juan Fernandez', inplace= True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  T_chile['NombreEstacion'].replace('CuricÃ³ Ad.', 'Curico', inplace= True)
The behavior will change in pandas 3.0. This inplace method wi

In [16]:
T_chile['NombreEstacion'].unique()

array(['Arica Ap.', 'Diego Aracena Iquique Ap.', 'Calama Ad.',
       'Cerro Moreno  Antofagasta  Ap.', 'Mataveri  Isla de Pascua Ap.',
       'Caldera  Ad.', 'La Serena Ad.', 'Rodelillo Ad.', 'Tobalaba Ad.',
       'Quinta Normal Santiago', 'Pudahuel Santiago ',
       'Santo Domingo Ad.', 'Juan Fernandez', 'Curicó Ad.', 'Chillán Ad.',
       'Concepción Ap.', 'Los Angeles Ad.', 'Temuco Ad.', 'Valdivia Ad.',
       'Osorno Ad.', 'El Tepual  Puerto Montt Ap.', 'Futaleufú Ad.',
       'Alto Palena Ad.', 'Puerto aysen', 'Coyhaique Ad.',
       'Balmaceda Ad.', 'Chile Chico Ad.', 'Lord Cochrane Ad.',
       'Puerto Natales Ad.', 'Punta Arenas Ap.', 'Porvenir Ad.',
       'Pto Williams Ad.', 'Antartica'], dtype=object)

In [18]:
len(T_chile['NombreEstacion'].unique())


33

In [19]:
T_chile = T_chile.rename(columns={'NombreEstacion' : 'Region'})
T_chile.head()

Unnamed: 0,CodigoNacional,Region,Latitud,Altura,T.Minima,T.Maxima,Fecha
0,180005,Arica Ap.,18&deg 21' 5'' S,63,20.6,24.4,2016-01-01
1,180005,Arica Ap.,18&deg 21' 5'' S,63,21.3,25.1,2016-01-02
2,180005,Arica Ap.,18&deg 21' 5'' S,63,19.0,24.8,2016-01-03
3,180005,Arica Ap.,18&deg 21' 5'' S,63,18.1,25.0,2016-01-04
4,180005,Arica Ap.,18&deg 21' 5'' S,63,21.5,25.6,2016-01-05


Eliminar las filas que no se estudiaran

In [77]:
T_chile.drop(T_chile[(T_chile['Fecha'] >= '2023-6-30') & (T_chile['Fecha'] <= '2023-12-31')].index, inplace=True)

Reemplazar los valores Nans con los promedios de cada columna segun temporada

In [2]:
T_chile = pd.read_csv("C:\\Yop\\Datasets\\Temperaturas\\T_chile_final.csv")

In [3]:
T_chile.isna().any()

CodigoNacional    False
Region            False
Latitud           False
Altura            False
T.Minima           True
T.Maxima          False
Fecha             False
dtype: bool

In [175]:
T_chile.loc[T_chile['T.Maxima'].isnull()].sort_values(['Region', 'Fecha'])


Unnamed: 0,CodigoNacional,Region,Latitud,Altura,T.Minima,T.Maxima,Fecha


In [46]:
Nans_reemplazo(T_chile, 'T.Maxima', 'El Tepual  Puerto Montt Ap.', '2021-12-21', '2022-03-21', 0.5)

Se reemplazo correctamente, con el promedio 19.78888888888889


Unnamed: 0,CodigoNacional,Region,Latitud,Altura,T.Minima,T.Maxima,Fecha
0,180005,Arica Ap.,18&deg 21' 5'' S,63,20.6,24.4,2016-01-01
1,180005,Arica Ap.,18&deg 21' 5'' S,63,21.3,25.1,2016-01-02
2,180005,Arica Ap.,18&deg 21' 5'' S,63,19.0,24.8,2016-01-03
3,180005,Arica Ap.,18&deg 21' 5'' S,63,18.1,25.0,2016-01-04
4,180005,Arica Ap.,18&deg 21' 5'' S,63,21.5,25.6,2016-01-05
...,...,...,...,...,...,...,...
88766,950001,Antartica,62&deg 11' 31'' S,45,-1.2,0.6,2022-12-27
88767,950001,Antartica,62&deg 11' 31'' S,45,-1.5,1.8,2022-12-28
88768,950001,Antartica,62&deg 11' 31'' S,45,-1.2,1.8,2022-12-29
88769,950001,Antartica,62&deg 11' 31'' S,45,-1.9,1.4,2022-12-30


In [330]:
T_chile.loc[T_chile['T.Minima'].isnull()].sort_values(['Region', 'Fecha'])

Unnamed: 0,CodigoNacional,Region,Latitud,Altura,T.Minima,T.Maxima,Fecha
76289,390006,Valdivia Ad.,39&deg 39' 24'' S,18,,15.218,2023-06-26
76290,390006,Valdivia Ad.,39&deg 39' 24'' S,18,,12.3,2023-06-27


In [331]:
Nans_reemplazo(T_chile, 'T.Minima', 'Valdivia Ad.', '2023-03-21', '2023-06-30', 0.5)

Se reemplazo correctamente, con el promedio 5.441414141414142


Unnamed: 0,CodigoNacional,Region,Latitud,Altura,T.Minima,T.Maxima,Fecha
0,180005,Arica Ap.,18&deg 21' 5'' S,63,20.6,24.4,2016-01-01
1,180005,Arica Ap.,18&deg 21' 5'' S,63,21.3,25.1,2016-01-02
2,180005,Arica Ap.,18&deg 21' 5'' S,63,19.0,24.8,2016-01-03
3,180005,Arica Ap.,18&deg 21' 5'' S,63,18.1,25.0,2016-01-04
4,180005,Arica Ap.,18&deg 21' 5'' S,63,21.5,25.6,2016-01-05
...,...,...,...,...,...,...,...
88766,950001,Antartica,62&deg 11' 31'' S,45,-1.2,0.6,2022-12-27
88767,950001,Antartica,62&deg 11' 31'' S,45,-1.5,1.8,2022-12-28
88768,950001,Antartica,62&deg 11' 31'' S,45,-1.2,1.8,2022-12-29
88769,950001,Antartica,62&deg 11' 31'' S,45,-1.9,1.4,2022-12-30


In [332]:
T_chile.isna().any()

CodigoNacional    False
Region            False
Latitud           False
Altura            False
T.Minima          False
T.Maxima          False
Fecha             False
dtype: bool

No existen Nans en el data_frame, se guarda el nuevo marco en un csv

In [334]:
# T_chile.to_csv("C:\\Yop\\Datasets\\Temperaturas\\T_chile_final0.csv", index=False)

Se concatena: precipitaciones y temperaturas de Chile

In [3]:
T0_chile = pd.read_csv("C:\\Yop\\Datasets\\Temperaturas\\T_chile_final0.csv")
P0_chile = pd.read_csv("C:\\Yop\\Datasets\\precipitaciones\\precipitacion_chile.csv")

In [28]:
P0_chile.head()

Unnamed: 0,CodigoNacional,Region,Latitud,Altura,Precipitación,Fecha
0,180005,Arica Ap.,18&deg 21' 5'' S,63,0.0,2016-01-01
1,180005,Arica Ap.,18&deg 21' 5'' S,63,0.0,2016-01-02
2,180005,Arica Ap.,18&deg 21' 5'' S,63,0.0,2016-01-03
3,180005,Arica Ap.,18&deg 21' 5'' S,63,0.0,2016-01-04
4,180005,Arica Ap.,18&deg 21' 5'' S,63,0.0,2016-01-05


In [31]:

P0_chile['Fecha'] = P0_chile['Fecha'].astype(str)
T0_chile['Fecha'] = T0_chile['Fecha'].astype(str)


In [35]:

P0_chile['Fecha'] = pd.to_datetime(P0_chile['Fecha'])
T0_chile['Fecha'] = pd.to_datetime(T0_chile['Fecha'])

In [38]:
T0_chile.head()

Unnamed: 0,CodigoNacional,Region,Latitud,Altura,T.Minima,T.Maxima,Fecha
0,180005,Arica Ap.,18&deg 21' 5'' S,63,20.6,24.4,2016-01-01
1,180005,Arica Ap.,18&deg 21' 5'' S,63,21.3,25.1,2016-01-02
2,180005,Arica Ap.,18&deg 21' 5'' S,63,19.0,24.8,2016-01-03
3,180005,Arica Ap.,18&deg 21' 5'' S,63,18.1,25.0,2016-01-04
4,180005,Arica Ap.,18&deg 21' 5'' S,63,21.5,25.6,2016-01-05


In [51]:
Chile_clima = pd.merge(T0_chile, P0_chile,  how = 'outer')

In [52]:
Chile_clima.isna().any()

CodigoNacional    False
Region            False
Latitud           False
Altura            False
T.Minima           True
T.Maxima           True
Fecha             False
Precipitación      True
dtype: bool

In [53]:
Chile_clima.head()

Unnamed: 0,CodigoNacional,Region,Latitud,Altura,T.Minima,T.Maxima,Fecha,Precipitación
0,180005,Arica Ap.,18&deg 21' 20'' S,50,12.6,18.8,2019-07-01,0.0
1,180005,Arica Ap.,18&deg 21' 20'' S,50,16.2,18.2,2019-07-02,0.0
2,180005,Arica Ap.,18&deg 21' 20'' S,50,15.5,17.8,2019-07-03,0.0
3,180005,Arica Ap.,18&deg 21' 20'' S,50,14.8,17.6,2019-07-04,0.0
4,180005,Arica Ap.,18&deg 21' 20'' S,50,15.9,19.1,2019-07-05,0.0


En cierta porcion esto se debe a los nombres

In [56]:
Chile_clima['Region'].unique()


array(['Arica Ap.', 'Diego Aracena Iquique Ap.', 'Calama Ad.',
       'Cerro Moreno  Antofagasta  Ap.', 'Mataveri  Isla de Pascua Ap.',
       'Caldera  Ad.', 'Caldera Ad.', 'La Serena Ad.', 'Rodelillo Ad.',
       'Tobalaba Ad.', 'Quinta Normal Santiago', 'Pudahuel Santiago ',
       'Santo Domingo Ad.', 'Juan Fernandez', 'Curico', 'Curicó Ad.',
       'Chillan', 'Chillán Ad.', 'Concepcion', 'Concepción Ap.',
       'Los Angeles Ad.', 'Temuco Ad.', 'Valdivia Ad.', 'Osorno Ad.',
       'El Tepual  Puerto Montt Ap.', 'Futaleufu', 'Futaleufú Ad.',
       'Alto Palena Ad.', 'Puerto aysen', 'Coyhaique Ad.',
       'Balmaceda Ad.', 'Chile Chico Ad.', 'Lord Cochrane Ad.',
       'Puerto Natales Ad.', 'Punta Arenas Ap.', 'Porvenir Ad.',
       'Pto Williams Ad.', 'Antartica'], dtype=object)

In [57]:
Chile_clima['Region'].replace('Curico', 'Curico Ad.', inplace = True)
Chile_clima['Region'].replace('Curicó Ad.', 'Curico Ad.', inplace = True)

Chile_clima['Region'].replace('Chillán Ad.', 'Chillan Ad.', inplace = True)
Chile_clima['Region'].replace('Chillan', 'Chillan Ad.', inplace = True)

Chile_clima['Region'].replace('Concepcion', 'Concepcion Ap.', inplace = True)
Chile_clima['Region'].replace('Concepción Ap.', 'Concepcion Ap.', inplace = True)

Chile_clima['Region'].replace('Futaleufu', 'Futaleufu Ad.', inplace = True)
Chile_clima['Region'].replace('Futaleufú Ad.', 'Futaleufu Ad.', inplace = True)

Chile_clima['Region'].replace('Caldera  Ad.', 'Caldera Ad.', inplace = True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  Chile_clima['Region'].replace('Curico', 'Curico Ad.', inplace = True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  Chile_clima['Region'].replace('Curicó Ad.', 'Curico Ad.', inplace = True)
The behavior will change in pandas 3.0. This inplace method will never work because the 

In [58]:
len(Chile_clima['Region'].unique())

33

In [344]:
Chile_clima.loc[Chile_clima['T.Minima'].isnull()].sort_values(['Region', 'Fecha'])

Unnamed: 0,CodigoNacional,Region,Latitud,Altura,T.Minima,T.Maxima,Fecha,Precipitación
57378,380013,Temuco Ad.,38&deg 46' 4'' S,86,,,2023-06-30,0.6


In [345]:
Nans_reemplazo(Chile_clima, 'T.Minima', 'Temuco Ad.', '2023-03-21', '2023-06-30', 0.5)
Nans_reemplazo(Chile_clima, 'T.Maxima', 'Temuco Ad.', '2023-03-21', '2023-06-30', 0.5)

Se reemplazo correctamente, con el promedio 4.811235955056179
Se reemplazo correctamente, con el promedio 16.31910166626419


Unnamed: 0,CodigoNacional,Region,Latitud,Altura,T.Minima,T.Maxima,Fecha,Precipitación
0,180005,Arica Ap.,18&deg 21' 20'' S,50,12.6,18.8,2019-07-01,0.0
1,180005,Arica Ap.,18&deg 21' 20'' S,50,16.2,18.2,2019-07-02,0.0
2,180005,Arica Ap.,18&deg 21' 20'' S,50,15.5,17.8,2019-07-03,0.0
3,180005,Arica Ap.,18&deg 21' 20'' S,50,14.8,17.6,2019-07-04,0.0
4,180005,Arica Ap.,18&deg 21' 20'' S,50,15.9,19.1,2019-07-05,0.0
...,...,...,...,...,...,...,...,...
101943,950001,Antartica,62&deg 11' 35'' S,45,-0.6,3.2,2019-12-05,0.0
101944,950001,Antartica,62&deg 11' 35'' S,45,-0.7,2.7,2019-12-06,0.0
101945,950001,Antartica,62&deg 11' 35'' S,45,0.9,3.3,2019-12-07,1.6
101946,950001,Antartica,62&deg 11' 35'' S,45,1.1,2.8,2019-12-08,2.4


In [3]:
Chile_clima.isna().any()

CodigoNacional    False
Region            False
Latitud           False
Altura            False
T.Minima          False
T.Maxima          False
Fecha             False
Precipitación      True
dtype: bool

In [383]:
Chile_clima.loc[Chile_clima['Precipitación'].isnull()].sort_values(['Region', 'Fecha']).head()

Unnamed: 0,CodigoNacional,Region,Latitud,Altura,T.Minima,T.Maxima,Fecha,Precipitación


In [382]:
Nans_reemplazo(Chile_clima, 'Precipitación', 'Tobalaba Ad.', '2018-03-21', '2018-06-21', 0.5)

Se reemplazo correctamente, con el promedio 0.6466666666666666


Unnamed: 0,CodigoNacional,Region,Latitud,Altura,T.Minima,T.Maxima,Fecha,Precipitación
0,180005,Arica Ap.,18&deg 21' 20'' S,50,12.6,18.8,2019-07-01,0.0
1,180005,Arica Ap.,18&deg 21' 20'' S,50,16.2,18.2,2019-07-02,0.0
2,180005,Arica Ap.,18&deg 21' 20'' S,50,15.5,17.8,2019-07-03,0.0
3,180005,Arica Ap.,18&deg 21' 20'' S,50,14.8,17.6,2019-07-04,0.0
4,180005,Arica Ap.,18&deg 21' 20'' S,50,15.9,19.1,2019-07-05,0.0
...,...,...,...,...,...,...,...,...
100951,950001,Antartica,62&deg 11' 35'' S,45,-0.6,3.2,2019-12-05,0.0
100952,950001,Antartica,62&deg 11' 35'' S,45,-0.7,2.7,2019-12-06,0.0
100953,950001,Antartica,62&deg 11' 35'' S,45,0.9,3.3,2019-12-07,1.6
100954,950001,Antartica,62&deg 11' 35'' S,45,1.1,2.8,2019-12-08,2.4


In [386]:
Chile_clima['Region'].unique()

array(['Arica Ap.', 'Diego Aracena Iquique Ap.', 'Calama Ad.',
       'Cerro Moreno  Antofagasta  Ap.', 'Mataveri  Isla de Pascua Ap.',
       'Caldera Ad.', 'La Serena Ad.', 'Rodelillo Ad.', 'Tobalaba Ad.',
       'Quinta Normal Santiago', 'Pudahuel Santiago ',
       'Santo Domingo Ad.', 'Juan Fernandez', 'Curico Ad.', 'Chillan Ad.',
       'Concepcion Ap.', 'Los Angeles Ad.', 'Temuco Ad.', 'Valdivia Ad.',
       'Osorno Ad.', 'El Tepual  Puerto Montt Ap.', 'Futaleufu Ad.',
       'Alto Palena Ad.', 'Puerto aysen', 'Coyhaique Ad.',
       'Balmaceda Ad.', 'Chile Chico Ad.', 'Lord Cochrane Ad.',
       'Puerto Natales Ad.', 'Punta Arenas Ap.', 'Porvenir Ad.',
       'Pto Williams Ad.', 'Antartica'], dtype=object)

In [16]:
Chile_clima.isna().any()

CodigoNacional    False
Region            False
Latitud           False
Altura            False
T.Minima          False
T.Maxima          False
Fecha             False
Precipitación     False
dtype: bool

In [17]:
Chile_clima.rename(columns= {'Precipitación': 'Precipitacion'}, inplace = True)

In [18]:
orden = ['CodigoNacional', 'Region', 'Latitud', 'Altura', 'T.Minima', 'T.Maxima', 'Precipitacion', 'Fecha']
Chile_clima = Chile_clima[orden]

In [19]:
Chile_clima.info()
Chile_clima.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 97881 entries, 0 to 97880
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   CodigoNacional  97881 non-null  int64  
 1   Region          97881 non-null  object 
 2   Latitud         97881 non-null  object 
 3   Altura          97881 non-null  int64  
 4   T.Minima        97881 non-null  float64
 5   T.Maxima        97881 non-null  float64
 6   Precipitacion   97881 non-null  float64
 7   Fecha           97881 non-null  object 
dtypes: float64(3), int64(2), object(3)
memory usage: 6.0+ MB


Unnamed: 0,CodigoNacional,Region,Latitud,Altura,T.Minima,T.Maxima,Precipitacion,Fecha
0,180005,Arica Ap.,18&deg 21' 20'' S,50,12.6,18.8,0.0,2019-07-01
1,180005,Arica Ap.,18&deg 21' 20'' S,50,16.2,18.2,0.0,2019-07-02
2,180005,Arica Ap.,18&deg 21' 20'' S,50,15.5,17.8,0.0,2019-07-03
3,180005,Arica Ap.,18&deg 21' 20'' S,50,14.8,17.6,0.0,2019-07-04
4,180005,Arica Ap.,18&deg 21' 20'' S,50,15.9,19.1,0.0,2019-07-05


In [20]:
Chile_clima['Precipitacion'] = (Chile_clima['Precipitacion']*10).astype(int)/10
Chile_clima['T.Minima'] = (Chile_clima['T.Minima']*10).astype(int)/10
Chile_clima['T.Maxima'] = (Chile_clima['T.Maxima']*10).astype(int)/10

In [21]:
print(Chile_clima)

       CodigoNacional     Region            Latitud  Altura  T.Minima  \
0              180005  Arica Ap.  18&deg 21' 20'' S      50      12.6   
1              180005  Arica Ap.  18&deg 21' 20'' S      50      16.2   
2              180005  Arica Ap.  18&deg 21' 20'' S      50      15.5   
3              180005  Arica Ap.  18&deg 21' 20'' S      50      14.8   
4              180005  Arica Ap.  18&deg 21' 20'' S      50      15.9   
...               ...        ...                ...     ...       ...   
97876          950001  Antartica  62&deg 11' 35'' S      45      -0.6   
97877          950001  Antartica  62&deg 11' 35'' S      45      -0.7   
97878          950001  Antartica  62&deg 11' 35'' S      45       0.9   
97879          950001  Antartica  62&deg 11' 35'' S      45       1.1   
97880          950001  Antartica  62&deg 11' 35'' S      45      -0.2   

       T.Maxima  Precipitacion       Fecha  
0          18.8            0.0  2019-07-01  
1          18.2            0.0  2

Finalmente con los tipos de datos correctos, limpiados y procesados se da por finalizada la etapa y se puede proceder a analizar.

In [22]:
# Chile_clima.to_csv("C:\\Yop\\Datasets\\Chile_clima_final0.csv", index = False)

### Indice

Code: 
* Nans_reemplazo:

In [None]:
import pandas as pd
"""
Codigo encargado de reemplazar valores nulos por el promedio generado por estaciones de año.
El data frame debe contener Region y Fechas

Args:
    Data_frame: Marco de datos a estudiar.
    Nombre_columna: Columna al reemplazar Nans.
    Nombre_region: Filtro de ciudad que contiene Nans.
    Fecha_incio: Fecha inicial (principio de una estación).
    Fecha_final: Fecha final (final de la estacion escogida).
    Umbral: Porcentaje de valores Nans permitidos, generalmente 0.5.

Returns:
   Data_frame: Marco de datos con Nans reemplazados
"""
def Nans_reemplazo(data_frame, nombre_columna, nombre_region, fecha_inicio, fecha_final, umbral):
    try:
        if nombre_columna not in data_frame.columns:
            raise ValueError("La columna no existe")
        
        if nombre_region not in data_frame['Region'].unique():
            raise ValueError("El nombre de la region no existe")
        
        df = data_frame[(data_frame['Region'] == nombre_region) &
                        (data_frame['Fecha'] >= fecha_inicio) &
                        (data_frame['Fecha'] <= fecha_final)]
        # Obtener fechas existentes en el rango
        
        #filtrar las filas correspondientes
        
        promedio = df[df[nombre_columna].notnull()][nombre_columna].mean()

        data_frame_Nans = data_frame.loc[(data_frame['Region'] == nombre_region) &
                                         (data_frame['Fecha'] >= fecha_inicio) &
                                         (data_frame['Fecha'] <= fecha_final) &
                                         (data_frame[nombre_columna].isnull())]
        
        if pd.isnull(promedio):
            print(f"Se han eliminado las filas entre {fecha_inicio} y {fecha_final}")
            data_frame.drop(data_frame_Nans.index, inplace = True)
        
        len_Nans = len(data_frame_Nans)
        len_estacion = len(df)

        if len_estacion == 0 or len_Nans/len_estacion > umbral:
            print("Número de filas antes de la eliminación:", len(data_frame))
            data_frame.drop(data_frame_Nans.index, inplace = True)
            print("Número de filas con la eliminación:", len(data_frame))
            
            print(f"""Se han eliminado las filas de la ciudad {nombre_region} entre
                   el {fecha_inicio} y {fecha_final}, o no existia el rango de fecha.""")
            
        else:
            data_frame.loc[(data_frame['Region'] == nombre_region) &
                           (data_frame['Fecha'] >= fecha_inicio) &
                           (data_frame['Fecha'] <= fecha_final) &
                           (data_frame[nombre_columna].isnull()), nombre_columna] = promedio
            print(f"Se reemplazo correctamente, con el promedio {promedio}")

        return data_frame
    
    except Exception as e:
        print("Error desconocido", e)

* read_csv:

In [None]:
import glob
import pandas as pd

def read_csv (ruta):
    '''
    Para leer el codigo utilzar:
    ruta = 'c:\\bblabla\\blabla\\blalbla\'
    data_frame_nuevo = read_csv(ruta)
    '''
    archivos = glob.glob(ruta + '*.csv')
    data_frames = []

    for precipitacion_ in archivos:                    
      datos = pd.read_csv(precipitacion_, sep = ';')
      data_frames.append(datos)

    data_frame = pd.concat(data_frames, ignore_index = True)
    data_frame = data_frame.drop_duplicates()

    return data_frame

# para leer el codigo, utilizamos 
# ruta = \\c\\asd\asd\\sd'
# data_frame = read_csv(ruta) 