# Challenge 01 Limpieza de datos


## Importar librerias
Se requiere limpiar un datos provenientes de un archivo TXT. Lo primero es importar librerias que permitan esta tarea.

In [1]:
import matplotlib.pyplot as plt
import pandas as pd

## Importar TXT
Se importa el txt y se pasa formato de Dataframe.

In [3]:
file = 'data/SN_d_tot_V2.0.txt'

data= pd.read_csv(file, sep= '\t', comment = '#', na_values = ['NA'])

data

Unnamed: 0,1818 1 01 1818.001 -1 -1.0 0
0,1818 1 02 1818.004 -1 -1.0 0
1,1818 1 03 1818.007 -1 -1.0 0
2,1818 1 04 1818.010 -1 -1.0 0
3,1818 1 05 1818.012 -1 -1.0 0
4,1818 1 06 1818.015 -1 -1.0 0
...,...
75081,2023 07 27 2023.568 145 15.1 18 *
75082,2023 07 28 2023.571 164 18.6 27 *
75083,2023 07 29 2023.574 179 17.9 33 *
75084,2023 07 30 2023.577 180 16.4 36 *


Hay que dar contexto a los datos. De acuerdo con https://www.sidc.be/SILSO/infosndtot Las primeras tres columnas son de un formato fecha. La siguinte columna es la fecha en forma fraccional, la siguiente es la cantidad de manchas solares donde -1 indica que no había valores (hay que reemplazar por un NA). La columna que le sigue es la desviación estándar diaria introducida por cada estación, la siguiente columna es el número de observaciones usadas para calcular el valor diario.

In [38]:
# Leer el archivo de texto en un DataFrame
data = pd.read_csv(file, sep=r'\s+', header=None, usecols=[0, 1, 2, 3, 4, 5, 6])

# Asignar nombres a las columnas
data.columns = ['Año', 'Mes', 'Día', 'Fecha_dec', 'Manchas_Sol', 'Desv_Est', '#Observaciones']

# Crear una nueva columna de fecha combinando las columnas Día, Mes y Año
data['Fecha'] = pd.to_datetime(data[['Año', 'Mes', 'Día']].astype(str).agg(' '.join, axis=1))

# Eliminar las columnas Año, Mes y Día originales
data.drop(['Año', 'Mes', 'Día'], axis=1, inplace=True)

data


Unnamed: 0,Fecha_dec,Manchas_Sol,Desv_Est,#Observaciones,Fecha
0,1818.001,-1,-1.0,0,1818-01-01
1,1818.004,-1,-1.0,0,1818-01-02
2,1818.007,-1,-1.0,0,1818-01-03
3,1818.010,-1,-1.0,0,1818-01-04
4,1818.012,-1,-1.0,0,1818-01-05
...,...,...,...,...,...
75082,2023.568,145,15.1,18,2023-07-27
75083,2023.571,164,18.6,27,2023-07-28
75084,2023.574,179,17.9,33,2023-07-29
75085,2023.577,180,16.4,36,2023-07-30


Se ordenan las columnas y se arregla lo de los valores faltantes

In [39]:
data = data[['Fecha', 'Fecha_dec', 'Manchas_Sol', 'Desv_Est', '#Observaciones']]

# Reemplazar los valores -1 por un valor específico, por ejemplo, NaN
data['Manchas_Sol'] = data['Manchas_Sol'].replace(-1, pd.NA)
data['Desv_Est'] = data['Desv_Est'].replace(-1.0, pd.NA)

data

Unnamed: 0,Fecha,Fecha_dec,Manchas_Sol,Desv_Est,#Observaciones
0,1818-01-01,1818.001,,,0
1,1818-01-02,1818.004,,,0
2,1818-01-03,1818.007,,,0
3,1818-01-04,1818.010,,,0
4,1818-01-05,1818.012,,,0
...,...,...,...,...,...
75082,2023-07-27,2023.568,145,15.1,18
75083,2023-07-28,2023.571,164,18.6,27
75084,2023-07-29,2023.574,179,17.9,33
75085,2023-07-30,2023.577,180,16.4,36


Con esto quedaría el dataframe listo para trabajar.

## Segunda parte del challenge

Para esta parte del challenge se pide importar muchos csv en un solo dataframe

In [41]:
import pandas as pd
import glob

# Ruta de la carpeta que contiene los archivos CSV
folder_path = 'data/diary14'

# Obtener una lista de rutas de todos los archivos CSV en la carpeta
csv_files = glob.glob(folder_path + "/*.csv")

# Crear una lista vacía para almacenar los DataFrames de cada archivo
dataframes = []

# Iterar a través de los archivos CSV y cargarlos en DataFrames
for csv_file in csv_files:
    df = pd.read_csv(csv_file)
    dataframes.append(df)

# Combinar los DataFrames en uno solo
combined_df = pd.concat(dataframes, ignore_index=True)

combined_df

Unnamed: 0,NEWID,UCC,AMOUNT,AMOUNT_,PUB_FLAG,IMPNUM,ALLOC,COST,GIFT,EXPNSQDY,...,SEMPFRM2,SEMPFRM3,SEMPFRM4,SEMPFRM5,SEMPFRMI,SEMPFRMM,SEMP_RMM,SOCSRRET,SOCS_RET,WKSTATUS
0,2825351,900030.0,23222.0,,1.0,,,,,,...,,,,,,,,,,
1,2825351,900150.0,1649.0,,1.0,,,,,,...,,,,,,,,,,
2,2825351,900170.0,23200.0,,1.0,,,,,,...,,,,,,,,,,
3,2825351,980000.0,48071.0,,1.0,,,,,,...,,,,,,,,,,
4,2825351,980010.0,2.0,,1.0,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
982768,3045311,,,,,,,,,,...,.,.,.,.,.,.,A,,A,
982769,3045312,,,,,,,,,,...,.,.,.,.,100,.,A,2.0,D,1.0
982770,3045312,,,,,,,,,,...,12501,12724,10811,10203,301,11534,D,2.0,D,2.0
982771,3045312,,,,,,,,,,...,.,.,.,.,.,.,A,,A,


Aqui ya estarían concatenados los valores.