# Organización del las zonas estadísticas

### Regulación de formato de los datos

<b>Objetivo:</b> regular el formato del archivo al mismo que los demás. Para ello cogemos un archivo al azar, como puede ser <i>paro.csv</i>

In [4]:
import csv

replacements = {
    'Ã­': 'í',
    'Ã±': 'ñ',
    'Ã³': 'ó',
    'Ã¡': 'á',
    'Ã©': 'é',
    'Ãº': 'ú',
    'Ãœ': 'Ü',
    'Ã¼': 'ü',
    'Ã ': 'Á',
    'Ã‰': 'É',
    'Ã“': 'Ó',
    'Ãš': 'Ú'
}

def replace_chars(text):
        for src, target in replacements.items():
            text = text.replace(src, target)
        return text

def refactor_file(example_file, input_file, output_file):
    # Diccionario para almacenar los datos del primer archivo
    data = {}

    # Leer el primer archivo y almacenar los datos relevantes en el diccionario
    with open(example_file, mode='r', encoding='ISO-8859-1') as f_base:
        base_reader = csv.reader(f_base, delimiter=';')
        headers_base = next(base_reader)[:3]

        # Crear una clave única para cada entrada
        for row in base_reader:
            # Aplicar los reemplazos a las primeras 3 columnas
            row = [replace_chars(column) for column in row[:3]]
            key = ';'.join(row)
            data[key] = {}

    # Leer el segundo archivo y combinar los datos
    with open(input_file, mode='r', encoding='ISO-8859-1') as f2:
        reader = csv.reader(f2, delimiter=';')
        next(reader)

        for row in reader:
            nombre = row[1]  # Obtener el nombre del municipio de la fila actual
            for key in data:
                if nombre in key:
                    data[key] = row[2:6]


    # Escribir los datos sumados en un nuevo archivo CSV
    with open(output_file, 'w', newline='', encoding='utf-8') as csv_file:
        csv_writer = csv.writer(csv_file, delimiter=';')
        
        # Escribir los encabezados
        headers = (headers_base[0], headers_base[1], headers_base[2],
                'municipio_codigo_ine', 'zona_estadistica_codigo', 'zona_estadistica', 'superficie_km2')
        csv_writer.writerow(headers)

        # Escribir los datos sumados
        for key, values in data.items():
            line = [key.split(';')[0], key.split(';')[1], key.split(';')[2]] + [v if v != '' else '0' for v in values]
            # Añadir valores nulos para que todas las filas tengan el mismo número de datos
            while len(line) < len(headers):
                line.append('0')
            
            csv_writer.writerow(line)

example_file = '../union_final/paro.csv'
input_file = 'municipio_comunidad_madrid.csv'
output_file = '../union_final/aa_zonas_estadisticas.csv'

refactor_file('../union_final/data/paro.csv', 'municipio_comunidad_madrid.csv', '../union_final/data/aa_zonas_estadisticas.csv')
refactor_file('../union_final/data/paro.csv', 'municipio_comunidad_madrid.csv', '../union_2020/aa_zonas_estadisticas.csv')

Importante anotar que tenemos en cuenta que no han cambiado las superficies de los municipios ni sus zonas estadísticas ni na

In [5]:
import os

def clean_data(input_file, output_file):

    # Obtener la lista de archivos CSV en la carpeta de entrada

    # Datos excepcionales
    unuseful_words = ['Condiciones', 'Serie;;;']
    headers = "Serie;Codigo_municipio;Nombre;distancia_capital\n"


    # Limpiar y guardar los archivos CSV en la carpeta de salida
    with open(input_file, 'r') as f_input, open(output_file, 'w') as f_output:
        # Escribir los headers
        f_output.write(headers) 
        delete_next = False
        for line in f_input:                    
            if not delete_next:
                delete = False
                for word in unuseful_words:
                    if word in line:
                        delete = True
                if line.strip() == '':
                    delete = True
                if not delete:
                    fields = line.strip().split(';')
                    f_output.write(';'.join(fields[:4]) + '\n')
                # Eliminar líneas posteriores al ser el último municipio
                if 'Zarzalejo' in line:
                    delete_next = True

clean_data("distancia_capital.csv", "distancia_capital_clean.csv")


Son datos del 2016

In [6]:
import csv
def refactor_file(example_file, input_file, output_file):
    # Diccionario para almacenar los datos del primer archivo
    data = {}

    # Leer el primer archivo y almacenar los datos relevantes en el diccionario
    with open(example_file, mode='r', encoding='latin-1') as f_base:
        base_reader = csv.reader(f_base, delimiter=';')
        headers_base = next(base_reader)[:3]

        # Crear una clave única para cada entrada
        for row in base_reader:
            # Aplicar los reemplazos a las primeras 3 columnas
            row = [replace_chars(column) for column in row[:3]]
            key = ';'.join(row)
            data[key] = {}

    # Leer el segundo archivo y combinar los datos
    with open(input_file, mode='r', encoding='latin-1') as f2:
        reader = csv.reader(f2, delimiter=';')
        next(reader)

        for row in reader:
            nombre = row[1]  # Obtener el nombre del municipio de la fila actual
            for key in data:
                if nombre in key:
                    data[key] = row[3:4]


    # Escribir los datos sumados en un nuevo archivo CSV
    with open(output_file, 'w', newline='', encoding='utf-8') as csv_file:
        csv_writer = csv.writer(csv_file, delimiter=';')
        
        # Escribir los encabezados
        headers = (headers_base[0], headers_base[1], headers_base[2], 'distancia_capital')
        csv_writer.writerow(headers)

        # Escribir los datos sumados
        for key, values in data.items():
            line = [key.split(';')[0], key.split(';')[1], key.split(';')[2]] + [v if v != '' else '0' for v in values]
            # Añadir valores nulos para que todas las filas tengan el mismo número de datos
            while len(line) < len(headers):
                line.append('0')
            
            csv_writer.writerow(line)

refactor_file('../union_final/data/paro.csv', 'distancia_capital_clean.csv', '../union_final/data/distancia_capital.csv')
refactor_file('../union_final/data/paro.csv', 'distancia_capital_clean.csv', '../union_2020/distancia_capital.csv')