# EDA y Unificación de Datos

Este notebook realiza:
- Carga y limpieza de dos datasets (Provincias y Totales)
- Análisis descriptivo y visualizaciones
- Verificación de campos comunes para unificación
- Generación de tabla unificada
- Exportación del archivo limpio


In [None]:

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

sns.set(style='whitegrid')
plt.rcParams['figure.figsize'] = (12,6)

# Cargar archivos
prov_df = pd.read_csv('Internet Accesos Velocidad Rango Provincias.csv')
tot_df = pd.read_csv('Internet Accesos Velocidad Rango Totales.csv')

print('Provincias:', prov_df.shape)
print('Totales:', tot_df.shape)
prov_df.head()


## Limpieza de datos

In [None]:

# Eliminar columna vacía si existe
prov_df = prov_df.loc[:, ~prov_df.columns.str.contains('^Unnamed')]
tot_df = tot_df.loc[:, ~tot_df.columns.str.contains('^Unnamed')]

# Convertir separadores de miles y decimales
for col in prov_df.columns[4:]:
    prov_df[col] = prov_df[col].astype(str).str.replace('.', '').str.replace(',', '.').astype(float)

for col in tot_df.columns[3:]:
    tot_df[col] = tot_df[col].astype(str).str.replace('.', '').str.replace(',', '.').astype(float)

# Verificar tipos
print(prov_df.info())
print(tot_df.info())


## Verificación de campos comunes

In [None]:

common_cols = set(prov_df.columns).intersection(set(tot_df.columns))
print('Campos comunes:', common_cols)


## Análisis descriptivo

In [None]:

print(prov_df.describe())
print(tot_df.describe())


## Visualizaciones

In [None]:

# Evolución total de accesos por año
sns.lineplot(x='Año', y='Total', data=tot_df, estimator='sum')
plt.title('Evolución total de accesos por año')
plt.show()

# Distribución por provincia (último año)
ultimo_anio = prov_df['Año'].max()
df_ultimo = prov_df[prov_df['Año'] == ultimo_anio]
sns.barplot(x='Provincia', y='Total', data=df_ultimo)
plt.xticks(rotation=90)
plt.title(f'Distribución de accesos por provincia en {ultimo_anio}')
plt.show()


## Unificación de tablas

In [None]:

# Unificar por Año y Trimestre
merged_df = prov_df.merge(tot_df, on=['Año','Trimestre'], suffixes=('_prov','_total'))
print('Dimensiones de la tabla unificada:', merged_df.shape)
merged_df.head()


## Guardar archivo unificado

In [None]:

output_file = 'Internet_Accesos_Unificado.csv'
merged_df.to_csv(output_file, sep=',', encoding='utf-8', index=False, float_format='%.2f')
print(f'Archivo guardado como: {output_file}')
