In [None]:
import pandas as pd

data = pd.read_csv(
    "CM01_3_avg_amount.csv"
)  # https://storage.googleapis.com/curated_piat/MINSAIT/CM01_4_internacionales.csv
print(data)

In [None]:
data['country'] = data['country'].str.upper()

# Filtrar para quitar las filas con avg_amount igual a 0.0
data = data.query('avg_amount != 0.0')

In [None]:
import pycountry

# Función para obtener el nombre del país
def get_country_name(alpha_2):
    try:
        country = pycountry.countries.get(alpha_2=alpha_2)
        return country.name if country else None
    except Exception as e:
        print(f"Error: {e}")
        return None
    
# Aplicar la función a la columna 'country' para obtener el nombre del país
data['country'] = data['country'].apply(get_country_name)

# Imprimir el DataFrame resultante
data[['country']]

In [None]:
# Lista de países deseados
paises_deseados = ['Germany', 'France', 'United Kingdom', 'Netherlands', 'Italy', 'Sweden', 'Norway', 'Belgium', 'Denmark', 'Poland', 'Ireland']

# Filtrar el DataFrame para quedarse con los países deseados
data = data[data['country'].isin(paises_deseados)]

# Imprimir el DataFrame resultante
data

In [None]:
# Convierte la columna 'day' a formato de fecha y hora
data['day'] = pd.to_datetime(data['day'])

# Crea nuevas columnas para el año, mes y día
data['year'] = data['day'].dt.year
data['month'] = data['day'].dt.month
data['day'] = data['day'].dt.day

In [None]:
from sklearn.preprocessing import LabelEncoder

# Crear una instancia de LabelEncoder
label_encoder = LabelEncoder()

# Ajustar y transformar la columna 'country' a valores numéricos
data['country'] = label_encoder.fit_transform(data['country'])

# Normalizar los valores numéricos entre 0 y 1
data['country'] = data['country'] / \
    (len(label_encoder.classes_) - 1)

data

In [None]:
codigos = pd.read_csv('codigos_postales_municipios.csv')
codigos

In [None]:
# Función para obtener el código postal a partir del nuevo 'cod_distrito'
def obtener_codigo_postal(cod_distrito):
    return codigos.loc[codigos['codigo_postal'] == cod_distrito, 'municipio_id'].iloc[0]

# Aplicar la función para obtener el código postal y añadir la columna 'codigo_postal' al DataFrame original
data['cod_distrito'] = data['zipcode'].apply(obtener_codigo_postal)
data = data.drop('zipcode', axis=1)

data

In [None]:
# matriz de correlación  

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Supongamos que 'data' es tu DataFrame
# Calcula la matriz de correlación
correlation_matrix = data.corr()

# Configura el tamaño de la figura
plt.figure(figsize=(10, 8))

# Crea un mapa de calor con seaborn
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=.5)

# Ajusta las etiquetas de los ejes
plt.title('Matriz de Correlación')
plt.show()

In [None]:
data.to_csv('CM01_3_avg_amount_procesado.csv', index=False)