## LIMPIEZA DE DATOS:

Disponemos de cinco archivos csv sobre los que posteriormente se realizará un dashboard en Tableau. 
- Campañas: recoge el año, trimestre, mes y url de las campañas extraídas de la web del Ministerio de Igualdad entre 2020 y 2023.
- Denuncias: recoge el año, trimestre, provincia y número de denuncias por violencia de género entre 2009 y 2023.
- Llamadas: recoge el año, trimestre, mes, provincia y número de llamadas recibidas por el 016 entre 2009 y 2023.
- Orden: recoge el año,	trimestre, provincia y número de órdenes de protección asignadas a víctimas de violencia de género entre 2009 y 2023.
- Víctimas: recoge el año, trimestre, mes, provincia, tramo de edad de la víctima y del agresor y número de víctimas mortales por violencia de género entre 2009 y 2023.

Se procede a su limpieza con Pandas, tratando de unificar el tipo de dato y el orden de las columnas para que todos tengan la máxima consistencia posible y facilite la visualización. En términos generales, se unifica la columna de año para que solo aparezca la parte numérica y se transforma a tipo entero tanto esta columna como la que recoge el número de registros de cada columna. Los meses también se mantienen en formato cadena y se añade la columna Trimestre en el mismo formato para aquellos archivos que no la contienen.

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)

### 1. CAMPAÑAS CONTRA LA VIOLENCIA DE GÉNERO:

In [2]:
campañas = pd.read_csv('../data/data_original/campañas_vg.csv')
campañas

Unnamed: 0,Año,Mes,URL
0,2020,11,https://violenciagenero.igualdad.gob.es/sensib...
1,2021,11,https://violenciagenero.igualdad.gob.es/sensib...
2,2021,11,https://violenciagenero.igualdad.gob.es/sensib...
3,2021,10,https://violenciagenero.igualdad.gob.es/sensib...
4,2021,5,https://violenciagenero.igualdad.gob.es/sensib...
5,2021,4,https://violenciagenero.igualdad.gob.es/sensib...
6,2021,3,https://www.mitele.es/programas-tv/rocio-conta...
7,2022,11,https://violenciagenero.igualdad.gob.es/sensib...
8,2022,8,https://violenciagenero.igualdad.gob.es/sensib...
9,2023,7,https://violenciagenero.igualdad.gob.es/sensib...


In [3]:
# Convertimos los meses a palabra para que tenga consistencia con el resto:
meses_año = {
    11: 'Noviembre',
    10: 'Octubre',
    8: 'Agosto',
    7: 'Julio',
    5: 'Mayo',
    4: 'Abril',
    3: 'Marzo',
    }

campañas['Mes'] = campañas['Mes'].map(meses_año)


In [4]:
# Añadimos la columna Trimestre:

def trimestre(mes):
    if mes in ['Enero', 'Febrero', 'Marzo']:
        return 'Primero'
    elif mes in ['Abril', 'Mayo', 'Junio']:
        return 'Segundo'
    elif mes in ['Julio', 'Agosto', 'Septiembre']:
        return 'Tercero'
    else:
        return 'Cuarto'
    
campañas['Trimestre'] = campañas['Mes'].apply(trimestre)
campañas = campañas [['Año', 'Trimestre', 'Mes', 'URL']]

campañas.head()

Unnamed: 0,Año,Trimestre,Mes,URL
0,2020,Cuarto,Noviembre,https://violenciagenero.igualdad.gob.es/sensib...
1,2021,Cuarto,Noviembre,https://violenciagenero.igualdad.gob.es/sensib...
2,2021,Cuarto,Noviembre,https://violenciagenero.igualdad.gob.es/sensib...
3,2021,Cuarto,Octubre,https://violenciagenero.igualdad.gob.es/sensib...
4,2021,Segundo,Mayo,https://violenciagenero.igualdad.gob.es/sensib...


In [5]:
campañas['Año'] = campañas['Año'].astype(int)  # Cambiamos a tipo entero



In [6]:
# Exportamos csv: 
campañas.to_csv('../data/data_clean/campañas.csv', index=False)

### 2. DENUNCIAS REGISTRADAS POR VIOLENCIA DE GÉNERO:

In [7]:
denuncias = pd.read_csv('../data/data_original/denuncias.csv')
denuncias.head()

Unnamed: 0,Año,Trimestre,Provincia,Número de denuncias por violencia de género
0,Año 2009,Primero,Almería,679.0
1,Año 2009,Primero,Cádiz,811.0
2,Año 2009,Primero,Córdoba,354.0
3,Año 2009,Primero,Granada,1029.0
4,Año 2009,Primero,Huelva,583.0


In [8]:
denuncias['Año'] = denuncias['Año'].str.replace(r'\D', '', regex=True)  # Eliminamos lo no numérico de la columna Año
denuncias['Año'] = denuncias['Año'].astype(int)  # Cambiamos a tipo entero


In [9]:
denuncias.rename(columns={'Número de denuncias por violencia de género': 'Numero_denuncias'}, inplace=True) # Renombramos la columna
denuncias['Numero_denuncias'] = denuncias['Numero_denuncias'].astype(int)  # Cambiamos a tipo entero
denuncias = denuncias.reset_index(drop=True)  # Reseteamos índice
denuncias.head()

Unnamed: 0,Año,Trimestre,Provincia,Numero_denuncias
0,2009,Primero,Almería,679
1,2009,Primero,Cádiz,811
2,2009,Primero,Córdoba,354
3,2009,Primero,Granada,1029
4,2009,Primero,Huelva,583


In [10]:
# Exportamos csv:

denuncias.to_csv('../data/data_clean/denuncias_vg.csv', index=False)

### 3. LLAMADAS PERTINENTES RECIBIDAS POR EL 016:

In [11]:
llamadas = pd.read_csv('../data/data_original/llamadas016.csv')
llamadas.head()

Unnamed: 0,Año,Trimestre,Mes,Provincia,Número de llamadas pertinentes
0,Año 2007,Tercero,Septiembre,Almería,3.0
1,Año 2007,Tercero,Septiembre,Cádiz,2.0
2,Año 2007,Tercero,Septiembre,Córdoba,10.0
3,Año 2007,Tercero,Septiembre,Granada,8.0
4,Año 2007,Tercero,Septiembre,Huelva,8.0


In [12]:
llamadas['Año'] = llamadas['Año'].str.replace(r'\D', '', regex=True)  # Eliminamos lo no numérico de la columna Año
llamadas['Año'] = llamadas['Año'].astype(int)  # Cambiamos a tipo entero


In [13]:
# Eliminamos los años anteriores a 2009 para que tenga consistencia con el resto:
llamadas = llamadas.loc[llamadas['Año'] >= 2009]

In [14]:
llamadas.rename(columns={'Número de llamadas pertinentes': 'Numero_llamadas'}, inplace=True) # Renombramos la columna
llamadas['Numero_llamadas'] = llamadas['Numero_llamadas'].astype(int)  # Cambiamos a tipo entero
llamadas = llamadas.reset_index(drop=True)  # Reseteamos índice
llamadas.head()

Unnamed: 0,Año,Trimestre,Mes,Provincia,Numero_llamadas
0,2009,Primero,Enero,Almería,88
1,2009,Primero,Enero,Cádiz,119
2,2009,Primero,Enero,Córdoba,47
3,2009,Primero,Enero,Granada,106
4,2009,Primero,Enero,Huelva,58


In [15]:
# Exportamos csv:

llamadas.to_csv('../data/data_clean/llamadas016.csv', index=False)
llamadas.head()

Unnamed: 0,Año,Trimestre,Mes,Provincia,Numero_llamadas
0,2009,Primero,Enero,Almería,88
1,2009,Primero,Enero,Cádiz,119
2,2009,Primero,Enero,Córdoba,47
3,2009,Primero,Enero,Granada,106
4,2009,Primero,Enero,Huelva,58


### 4. ÓRDENES DE PROTECCIÓN ESTABLECIDAS A VÍCTIMAS DE VIOLENCIA DE GÉNERO:

In [16]:
orden = pd.read_csv('../data/data_original/orden_proteccion.csv')
orden.head()

Unnamed: 0,Año,Trimestre,Provincia,Número de órdenes de protección
0,Año 2009,Primero,Almería,82.0
1,Año 2009,Primero,Cádiz,312.0
2,Año 2009,Primero,Córdoba,125.0
3,Año 2009,Primero,Granada,163.0
4,Año 2009,Primero,Huelva,138.0


In [17]:
orden['Año'] = orden['Año'].str.replace(r'\D', '', regex=True)  # Eliminamos lo no numérico de la columna Año
orden['Año'] = orden['Año'].astype(int)  # Cambiamos a tipo entero


In [18]:
orden.rename(columns={'Número de órdenes de protección': 'Numero_ordenes'}, inplace=True) # Renombramos la columna

orden['Numero_ordenes'] = orden['Numero_ordenes'].astype(int)  # Cambiamos a tipo entero

orden = orden.reset_index(drop=True)  # Reseteamos índice

In [19]:
# Exportamos csv:

orden.to_csv('../data/data_clean/orden_proteccion.csv', index=False)
orden.head()

Unnamed: 0,Año,Trimestre,Provincia,Numero_ordenes
0,2009,Primero,Almería,82
1,2009,Primero,Cádiz,312
2,2009,Primero,Córdoba,125
3,2009,Primero,Granada,163
4,2009,Primero,Huelva,138


### 5. NÚMERO DE VÍCTIMAS MORTALES POR VIOLENCIA DE GÉNERO:

In [20]:
victimas = pd.read_csv('../data/data_original/victimas.csv')
victimas.head()

Unnamed: 0,Año,Mes,Provincia,Tramo de edad Víctima,Tramo de edad Agresor,Número de mujeres víctimas mortales
0,Año 2003,Enero,Almería,41-50 años,51-60 años,1.0
1,Año 2003,Enero,Granada,71-84 años,71-84 años,1.0
2,Año 2003,Enero,Málaga,21-30 años,No consta,1.0
3,Año 2003,Enero,Santa Cruz de Tenerife,31-40 años,No consta,1.0
4,Año 2003,Enero,Barcelona,31-40 años,51-60 años,1.0


In [21]:
victimas['Año'] = victimas['Año'].str.replace(r'\D', '', regex=True)  # Eliminamos lo no numérico de la columna Año
victimas['Año'] = victimas['Año'].astype(int)  # Cambiamos a tipo entero
victimas = victimas.loc[victimas['Año'] >= 2009]   # Eliminamos los años anteriores a 2009

In [22]:
victimas['Trimestre'] = victimas['Mes'].apply(trimestre)  # Añadimos columna de Trimestre

In [23]:
victimas.rename(columns={'Número de mujeres víctimas mortales': 'Victimas_mortales'}, inplace=True) # Renombramos la columna

victimas['Victimas_mortales'] = victimas['Victimas_mortales'].astype(int)  # Cambiamos a tipo entero

In [24]:
victimas.rename(columns={'Tramo de edad Víctima': 'Edad_victima', 'Tramo de edad Agresor': 'Edad_agresor'}, inplace=True) # Renombramos las columnas


In [25]:
victimas = victimas[['Año', 'Trimestre', 'Mes', 'Provincia','Edad_victima','Edad_agresor', 'Victimas_mortales']]
victimas = victimas.reset_index(drop=True)  # Reseteamos índice


In [26]:
# Exportamos csv:

victimas.to_csv('../data/data_clean/victimas.csv', index=False)
victimas.head()

Unnamed: 0,Año,Trimestre,Mes,Provincia,Edad_victima,Edad_agresor,Victimas_mortales
0,2009,Primero,Febrero,Granada,51-60 años,61-70 años,1
1,2009,Primero,Febrero,Huelva,31-40 años,31-40 años,1
2,2009,Primero,Febrero,Sevilla,21-30 años,21-30 años,1
3,2009,Primero,Febrero,Madrid,21-30 años,31-40 años,1
4,2009,Primero,Febrero,Madrid,31-40 años,31-40 años,1
