![GCAT | Genomes for Life](images/logo-GCAT.png)

# Filter locations

In [1]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
from matplotlib.pylab import *
%matplotlib inline

## Load tables

- MICA
- Participants

In [2]:
mica = pd.read_csv("/home/labs/dnalab/share/lims/R/gcat-cohort/output/export/QUESTIONARI/data.csv", low_memory=False)
participants = pd.read_csv("/home/labs/dnalab/share/lims/R/gcat-cohort/output/export/Participants/data.csv")

all = participants
all = pd.merge(all, mica, on=['entity_id'])

## Load country codes

In [3]:
countries = [
    'ANDORRA',
    'ANGOLA',
    'ARGENTINA',
    'ARMENIA',
    'AUSTRIA',
    'AUSTRALIA',
    'BELGIUM',
    'BOLIVIA',
    'BULGARIA',
    'BRAZIL',
    'CANADA',
    'CHILE',
    'COLOMBIA',
    'CUBA',
    'DENMARK',
    'DOMINICAN REPUBLIC',
    'ECUADOR',
    'EGYPT',
    'EL SALVADOR',
    'EQUADOR',
    'EQUATORIAL GUINEA',
    'FINLAND',
    'FRANCE',
    'GERMANY',
    'GUATEMALA',
    'GUINEA ECUATORIAL',
    'ICELAND',
    'IRAK',
    'IRAN',
    'IRELAND',
    'ITALY',
    'MACEDONIA',
    'MEXICO',
    'MOROCCO',
    'NETHERLANDS',
    'PERU',
    'POLONIA',
    'PORTUGAL',
    'PUERTO RICO',
    'ROMANIA',
    'RUSSIA',
    'SERBIA',
    'SPAIN',
    'SWEDEN',
    'SWITZERLAND',
    'TUNISIA',
    'UNITED KINGDOM',
    'URUGUAY',
    'VENEZUELA'
]

## Select variables of interest

In [4]:
columns = [
    'entity_id',
    'MUNICIPIO_NACIMIENTO',
    'MUNICIPIO_RESIDENCIA_OTRO',
    'MUNICIPIO_NACIMIENTO_OTRO',
    'MUNICIPIO_RESIDENCIA',
    'PAIS_NACIMIENTO',
    'PAIS_NACIMIENTO_OTRO',
]

all = all.ix[:,columns]

## Province of residence

In [5]:
filter = all.copy()
regional_codes = {'08': 'BARCELONA', '17': 'GIRONA', '25': 'LLEIDA', '43': 'TARRAGONA'}

filter['PROVINCIA_RESIDENCIA'] = filter['MUNICIPIO_RESIDENCIA'].str.extract('(\d\d)')
filter = filter.replace({'PROVINCIA_RESIDENCIA': regional_codes})

## Country of birth

In [6]:
country_codes = {1: 'SPAIN', 2: None}
filter = filter.replace({'PAIS_NACIMIENTO': country_codes})
filter.loc[
    filter['PAIS_NACIMIENTO'] != 'SPAIN', 'PAIS_NACIMIENTO'] = filter.loc[
    filter['PAIS_NACIMIENTO'] != 'SPAIN', 'PAIS_NACIMIENTO_OTRO']

## Town of birth

In [7]:
filter.loc[
    filter['MUNICIPIO_NACIMIENTO'].isnull(), 'MUNICIPIO_NACIMIENTO'] = filter.loc[
    filter['MUNICIPIO_NACIMIENTO'].isnull(), 'MUNICIPIO_NACIMIENTO_OTRO']

filter['MUNICIPIO_NACIMIENTO'] = filter['MUNICIPIO_NACIMIENTO'].str.upper()

In [8]:
filter['MUNICIPIO_NACIMIENTO']

0                         BADALONA
1                             REUS
2                            LOBON
3                        BARCELONA
4                         BADALONA
5                        BARCELONA
6                         BADALONA
7                            SERON
8                             JAEN
9                              NaN
10                       BARCELONA
11               PRAT DE LLOBREGAT
12                       BARCELONA
13                  PEDRO MARTINEZ
14               PRAT DE LLOBREGAT
15         HOSPITALET DE LLOBREGAT
16                           OÑATI
17                       BARCELONA
18                       BARCELONA
19                       BARCELONA
20                   ANTAS DE ULLA
21                       BARCELONA
22                       BARCELONA
23                       BARCELONA
24                       BARCELONA
25                       BARCELONA
26                         CORDOBA
27                           ARTES
28           CASTELL

## Curate foreign country names

In [15]:
a_la_llista = True & ~filter.PAIS_NACIMIENTO_OTRO.isin(countries)

filter['LUGAR_NACIMIENTO.OTRO.PAIS'] = filter['PAIS_NACIMIENTO_OTRO']
filter['LUGAR_NACIMIENTO'] = filter['PAIS_NACIMIENTO']
output = filter.loc[filter['PAIS_NACIMIENTO_OTRO'].notnull() & a_la_llista,
           ['entity_id', 'LUGAR_NACIMIENTO', 'LUGAR_NACIMIENTO.OTRO.PAIS']]

output.to_csv('../output/locations/other_countries.csv', index=False, encode='utf-8')

In [14]:
output

Unnamed: 0,entity_id,LUGAR_NACIMIENTO,LUGAR_NACIMIENTO.OTRO.PAIS
10496,=E00251611425321,Argentina,Argentina
11942,=E00251614244421,Argentina,Argentina
12081,=E00251616259421,Brasil,Brasil
12147,=E00251616357021,Mèxic,Mèxic
12247,=E00251615211321,MARRUECOS,MARRUECOS
12341,=E00251616386421,CATALUNYA,CATALUNYA
12682,=E00251619080221,CATALUNYA,CATALUNYA
12694,=E00251619080421,FRANÇA,FRANÇA
12731,=E00251613163321,Argentina,Argentina
12742,=E00251624482821,FRANCIA,FRANCIA


## Write curated data

In [20]:
columns = [
    'entity_id',
    'PAIS_NACIMIENTO',
    'MUNICIPIO_NACIMIENTO',
    'PROVINCIA_RESIDENCIA'
]
data = filter[columns]
data.to_csv('../output/locations/data.csv', index=False, encode='ISO-8859-1')

In [21]:
data

Unnamed: 0,entity_id,PAIS_NACIMIENTO,MUNICIPIO_NACIMIENTO,PROVINCIA_RESIDENCIA
0,=E00251417636421,SPAIN,BADALONA,BARCELONA
1,=E00251417995621,SPAIN,REUS,TARRAGONA
2,=E00251429158121,SPAIN,LOBON,BARCELONA
3,=E00251429165021,SPAIN,BARCELONA,BARCELONA
4,=E00251429205921,SPAIN,BADALONA,BARCELONA
5,=E00251429233421,SPAIN,BARCELONA,BARCELONA
6,=E00251429387321,SPAIN,BADALONA,BARCELONA
7,=E00251429394421,SPAIN,SERON,BARCELONA
8,=E00251429545321,SPAIN,JAEN,BARCELONA
9,=E00251429562721,GERMANY,,BARCELONA
