In [None]:
import pandas as pd 
import os 
import numpy as np

In [None]:
def importar_csvs_de_carpeta(carpeta):
    """
    Importa varios archivos CSV de una carpeta y los combina en un único DataFrame.
    """
    dfs = []  # lista para almacenar los DataFrames cargados
    
    # iterar sobre los archivos en la carpeta y cargar cada uno en un DataFrame
    for archivo in os.listdir(carpeta):
        if archivo.endswith('.csv'):
            path_archivo = os.path.join(carpeta, archivo) #Path completo a cada archivo en la carpeta.
            df = pd.read_csv(path_archivo)
            dfs.append(df)
    
    # combinar los DataFrames en uno solo y devolverlo
    return pd.concat(dfs, ignore_index=True)

In [None]:
def guardar_df_como_csv(df, path):
    """
    La función sirve para guardar un DataFrame de pandas como un archivo CSV en la ubicación especificada. Toma
    2 argumentos:     
    - df -- el DataFrame a guardar
    - path -- la ruta completa del archivo CSV
    """
    df.to_csv(path, index=False)

## Códigos distritos y barrios

In [None]:
df_codigos =  pd.read_csv('C:/Users/manya/Documents/Ironhack/Course/Project--III/data/raw/codigos_1.csv')


## Nivel de estudios

In [None]:
df_nivel_estudios = importar_csvs_de_carpeta('C:/Users/manya/Documents/Ironhack/Course/Project--III/data/raw/education')

In [None]:
df_nivel_estudios

In [None]:
def reemplazar_nans(df, columna1, columna2):
    """Esta función sirve para reemplzara los valores nulos de una columna1 por los valores de otra columna2 y una vez
    reemplazados los valores dropee la columna2. 
    Toma tres argumentos: 
    - df: DataFrame
    - Columa1: la columna que contiene los nans
    - Columna2: la columna que contiene los valores que queremos reemplazar por los nans"""
    
    df[columna1] = df[columna1].fillna(df[columna2])
    df.drop(columns=columna2, inplace = True)
    
    return df

In [None]:
def drop_filas_not_in_lista(df, column, list_):
    
    """Esta función se utiliza para dropear aquellas filas que contengan un valor en una columna que no se encuentra
    en una lista. Toma tres argumentos: 
    - df: Dataframe 
    - Column: el nombre de la columna 
    - list_: lista de valores, en este caso codigos de barrios de barcelona"""
    
    df.drop(df[~df[column].isin(list_)].index, inplace=True) 
    
    return df 

In [None]:
def cambiar_valores_columna (df, columna1, diccionario):
    """Esta función sirve para reemplazar los valores de una columna usando un diccionario. Toma tres argumentos: 
    -df: DataFrame
    -columna1: columna que contiene los valores que deseas modificar 
    -diccionario: diccionario que en las keys contiene el valor antiguo (el que quieres cambiar) y los values son
    los valores nuevos"""
    
    # Reemplazar los valores de la columna utilizando el diccionario
    df[columna1] = df[columna1].map(diccionario)
    
    # Devolver el DataFrame con la columna modificada
    return df



In [None]:
df_nivel_estudios = reemplazar_nans(df_nivel_estudios, 'Nivell_academic', 'Nivell acadèmic')

list_ = df_codigos['Codi_Barri'].unique().tolist()

df_nivel_estudios=drop_filas_not_in_lista(df_nivel_estudios, 'Codi_Barri', list_)

In [None]:
df_nivel_estudios['Nivell_academic'].unique()

In [None]:
df_nivel_estudios.columns

In [None]:
diccionario = {"Estudis primaris / certificat d'escolaritat / EGB":'No enseñanza obligatoria',
       'Batxillerat elemental / graduat escolar / ESO / FPI':'Enseñanza obligatoria',
       'Batxillerat superior / BUP / COU / FPII / CFGM grau mitjà':'Estudios superiores',
       'Estudis universitaris / CFGS grau superior':'Estudios superiores', 
        'Sense estudis':'No enseñanza obligatoria', 'No consta':'No consta'}

In [None]:
cambiar_valores_columna (df_nivel_estudios, 'Nivell_academic', diccionario)

In [None]:
cambiar_valores_columna (df_nivel_estudios, 'Sexe', {'Dones':'D','Homes':'H','Dona':'D','Home':'H'})

In [None]:
guardar_df_como_csv(df_nivel_estudios,'C:/Users/manya/Documents/Ironhack/Course/Project--III/data/clean/nivel_estudios.csv')

## Renta Disponible por Barrios

In [None]:
df_renta = importar_csvs_de_carpeta('C:/Users/manya/Documents/Ironhack/Course/Project--III/data/raw/income')

In [None]:
df_renta = reemplazar_nans(df_renta, 'Import_€_Any','Euros_Any')

In [None]:
df_renta

In [None]:
guardar_df_como_csv(df_renta, 'C:/Users/manya/Documents/Ironhack/Course/Project--III/data/clean/renta_barrios.csv')

## Renta Disponible por Distritos

In [None]:
df_renta_distritos =  pd.read_csv('C:/Users/manya/Documents/Ironhack/Course/Project--III/data/raw/renda_disponible_llars_districtes.csv', encoding='latin-1')


In [None]:
df_renta_distritos

In [None]:
def rename_column (df, column1, nuevo_nombre): 
    
    df = df.rename(columns = {column1: nuevo_nombre})
    
    return df

In [None]:
rename_column(df_renta_distritos,'Import__Any','Import_€_Any')

In [None]:
guardar_df_como_csv(df_renta_distritos, 'C:/Users/manya/Documents/Ironhack/Course/Project--III/data/clean/renta_distritos.csv')

## Renta Media Barcelona

In [None]:
dict_barcelona = {'Any':[2015,2016,2017,2018,2019], 'Import_€_Any':[20055.0,20733.0,20956.0,21272.0,22229.0]}

In [None]:
def crear_dataframe(diccionario):
    # Convertir el diccionario en un DataFrame
    df = pd.DataFrame.from_dict(diccionario)
    
    # Devolver el DataFrame
    return df

In [None]:
df_renta_barcelona = crear_dataframe (dict_barcelona)

In [None]:
guardar_df_como_csv(df_renta_barcelona, 'C:/Users/manya/Documents/Ironhack/Course/Project--III/data/clean/renta_bcn.csv')

## Equipamientos

In [None]:
df_equipamientos = pd.read_csv('C:/Users/manya/Documents/Ironhack/Course/Project--III/data/raw/equipamiento/llista-equipaments_cultura.csv', encoding='utf-16')

In [None]:
def borrar_columnas(df, list_columns):
    
    """Esta función se usa para borrar columnas de un dataframe y toma como argumentos: 
    - df: DataFrame pandas
    - list_columns: lista de los nombres de las columnas que quieres borrar"""
    
    df.drop(columns=list_columns, inplace = True)
    
    return df

In [None]:
def eliminar_filas (df, columna, lista_valores):
    
    """Esta función sirve para eliminar del dataframe las filas que contengan unos valores concretos en una columna. 
    La función toma tres argumentos:
    - df: Dataframe
    - columna: nombre de la columna que contiene los valores que queremos eliminar
    - lista_valores: lista de valores que no queremos tener"""
    
    # Seleccionar las filas que no contienen los valores a eliminar en la columna especificada
    filas_a_mantener = df.loc[~df[columna].isin(lista_valores)]
    
    # Crear un nuevo DataFrame con las filas seleccionadas
    df_filtrado = pd.DataFrame(filas_a_mantener)
    
    return df_filtrado

In [None]:
list_columns = ['institution_id', 'institution_name','modified', 'addresses_roadtype_id', 'addresses_roadtype_name', 
'addresses_road_id', 'addresses_road_name','addresses_start_street_number', 'addresses_end_street_number',  'addresses_zip_code', 'addresses_town',
'addresses_main_address', 'addresses_type','values_id', 'values_attribute_id', 'values_category',
       'values_attribute_name', 'values_value', 'values_outstanding',
       'values_description','secondary_filters_fullpath', 'secondary_filters_tree',
       'secondary_filters_asia_id', 'geo_epgs_25831_x', 'geo_epgs_25831_y',
       'geo_epgs_4326_x', 'geo_epgs_4326_y', 'secondary_filters_id']

In [None]:
df_equipamientos = borrar_columnas(df_equipamientos, list_columns)
df_equipamientos

In [None]:
lista_valores = ['Bars i pubs musicals', 'Discoteques',"Interiors d'illa", 'Parcs i jardins','WiFi BCN', "Casals d'avis", 'Restaurants',
       'Karaokes', 'Cocteleries', 'Xampanyeries','Zoo','Sales de festes', 'Tibidabo', 'Salons de ball', 'Altres esports', 'Atletisme en pista',
       'Instal·lacions esportives', 'Ateneus de fabricació', 'Natació','Zones de joc', 'Bàsquet', 'Tennis taula']

In [None]:
df_equipamientos = eliminar_filas(df_equipamientos, 'secondary_filters_name', lista_valores)

In [None]:
def drop_na_rows (df): 
    
    # Eliminar todas las filas que contienen valores NaN en cualquier columna
    df_filtrado = df.dropna(inplace=True)
    return df_filtrado

In [None]:
def cambiar_tipo_dato (df,column1, column2, tipo):
    
    df[column1] = df[column1].astype(tipo)
    df[column2] = df[column2].astype(tipo)
    
    return df 

In [None]:
def cambiar_formato_columna(df, columna, valor_cambio):
    # Utilizar la función apply() de Pandas para aplicar una función lambda a cada valor de la columna
    df[columna] = df[columna].apply(lambda x: str(x)[:4])
    df[columna] = df[columna].astype(valor_cambio)
    
    return df

In [None]:
def filtros_df (df, column1, valor_column1):
    
    """Esta función sirve para aplicar un filtro al dataframe. La función toma 
    tres argumentos: 
    - df: DataFrame de precios de alquiler
    - column1: cualquier columna
    - valor_column1: valor que queremos de la columna1
    """
    df1 = df.copy()
    
    condition1 = df1[column1] <= valor_column1

    df1 = df1[condition1]
    
    return df1

In [None]:
drop_na_rows (df_equipamientos)

In [None]:
cambiar_tipo_dato(df_equipamientos, 'addresses_neighborhood_id','addresses_district_id',int)

In [None]:
cambiar_formato_columna(df_equipamientos, 'created',int)

In [None]:
filtros_df(df_equipamientos, 'created', 2019)

In [None]:

def agrupar_count (df,column1, column2):
    
    df1 = df.copy()
    
    df1= df.groupby(column1)[column2].count().reset_index()

    df1 = df1.rename (columns={'created':'cantidad_equipamientos'})
    
    return df1
    

In [None]:
df_equipamientos=agrupar_count(df_equipamientos, 'addresses_neighborhood_id', 'created' )

In [None]:
df_equipamientos

In [None]:
guardar_df_como_csv(df_equipamientos,'C:/Users/manya/Documents/Ironhack/Course/Project--III/data/clean/equipamientos.csv')

## Superficie Barcelona

In [None]:
df_superficie= importar_csvs_de_carpeta('C:/Users/manya/Documents/Ironhack/Course/Project--III/data/raw/superficie_barrios')

In [None]:
def crear_columna_km2 (df, column1, column2):
    
    df[column1] = df[column2].apply(lambda x: x*0.01)
                                    
    return df 

In [None]:
crear_columna_km2(df_superficie, 'superficie_km2', 'Superfície (ha)')

In [None]:
guardar_df_como_csv(df_superficie, 'C:/Users/manya/Documents/Ironhack/Course/Project--III/data/clean/superficie.csv')

## Seeding DB    

In [None]:
import pymysql
import sqlalchemy as alch # python -m pip install --upgrade 'sqlalchemy<2.0'
from getpass import getpass

In [None]:
def load_df_to_sql(df, table_name, dbName):
    """
    Carga un DataFrame en una tabla de una base de datos MySQL.
    
    Args:
        df (pandas.DataFrame): El DataFrame a cargar en la tabla.
        table_name (str): El nombre de la tabla en la que cargar los datos.
        dbName (str): El nombre de la base de datos en la que se encuentra la tabla.
    
    Returns:
       None
    """
    # Conectarse a la base de datos
    password = getpass("Please enter your password: ")
    connectionData = f"mysql+pymysql://root:{password}@localhost/{dbName}"
    engine = alch.create_engine(connectionData)
    
    # Cargar el DataFrame en la tabla
    df.to_sql(name=table_name, con = engine, if_exists="replace", index = True)

In [None]:
load_df_to_sql (df_nivel_estudios, 'educacion_barrios','educacion')
load_df_to_sql (df_codigos, 'codigos','educacion')
load_df_to_sql (df_equipamientos, 'equipamientos', 'educacion')
load_df_to_sql (df_renta, 'renta_barrios', 'educacion')
load_df_to_sql (df_renta_barcelona, 'renta_barcelona', 'educacion')
load_df_to_sql (df_renta_distritos, 'renta_distritos', 'educacion')
load_df_to_sql (df_superficie, 'superficie', 'educacion')