# Integración de datos de fuentes en formato .csv

In [3]:
import csv
import urllib.request
import pandas as pd
import numpy as np

### Creamos una función para descargar los ficheros csv desde la URL de orígen y guardarlas en local

In [25]:
def download_files(url, filename):
    r = requests.get(url, stream=True, headers={'User-agent': 'Mozilla/5.0'})
    if r.status_code == 200:
        with open(filename, 'wb') as f:
            r.raw.decode_content = True
            shutil.copyfileobj(r.raw, f)

In [26]:
download_files('https://datos.madrid.es/egob/catalogo/208844-0-monumentos-edificios.csv', 'monumentos.csv')
download_files('https://datos.madrid.es/egob/catalogo/201132-0-museos.csv', 'museos.csv')
download_files('https://datos.madrid.es/egob/catalogo/200761-0-parques-jardines.csv', 'parques.csv')
download_files('https://datos.madrid.es/egob/catalogo/208862-7650046-ocio_salas.csv', 'teatro.csv')
download_files('https://datos.madrid.es/egob/catalogo/208862-7650164-ocio_salas.csv', 'cines.csv')
download_files('https://datos.madrid.es/egob/catalogo/208862-7650180-ocio_salas.csv', 'conciertos.csv')
download_files('https://datos.madrid.es/egob/catalogo/202105-0-mercadillos.csv', 'mercadillos.csv')
download_files('https://datos.madrid.es/egob/catalogo/206974-0-agenda-eventos-culturales-100.csv', 'eventos_100d.csv')

In [34]:
download_files('https://datos.madrid.es/egob/catalogo/200761-0-parques-jardines.csv', 'parques.csv')

### Creamos una función para transformar en dataframes los ficheros csv
Queremos pasar a dataframes los csv guardados en local y mostrar el nombre de las columnas. Así podremos ver que columnas son compartidas entre todos.

In [140]:
def csv_to_df(filename):
    dataframe = pd.read_csv(filename, sep=';', encoding='ansi')
    return(dataframe.columns.values)

In [141]:
csv_to_df('museos.csv')

array(['PK', 'NOMBRE', 'DESCRIPCION-ENTIDAD', 'HORARIO', 'EQUIPAMIENTO',
       'TRANSPORTE', 'DESCRIPCION', 'ACCESIBILIDAD', 'CONTENT-URL',
       'NOMBRE-VIA', 'CLASE-VIAL', 'TIPO-NUM', 'NUM', 'PLANTA', 'PUERTA',
       'ESCALERAS', 'ORIENTACION', 'LOCALIDAD', 'PROVINCIA',
       'CODIGO-POSTAL', 'BARRIO', 'DISTRITO', 'COORDENADA-X',
       'COORDENADA-Y', 'LATITUD', 'LONGITUD', 'TELEFONO', 'FAX', 'EMAIL',
       'TIPO', 'Unnamed: 30'], dtype=object)

In [143]:
csv_to_df('parques.csv')

array(['PK', 'NOMBRE', 'DESCRIPCION-ENTIDAD', 'HORARIO', 'EQUIPAMIENTO',
       'TRANSPORTE', 'DESCRIPCION', 'ACCESIBILIDAD', 'CONTENT-URL',
       'NOMBRE-VIA', 'CLASE-VIAL', 'TIPO-NUM', 'NUM', 'PLANTA', 'PUERTA',
       'ESCALERAS', 'ORIENTACION', 'LOCALIDAD', 'PROVINCIA',
       'CODIGO-POSTAL', 'BARRIO', 'DISTRITO', 'COORDENADA-X',
       'COORDENADA-Y', 'LATITUD', 'LONGITUD', 'TELEFONO', 'FAX', 'EMAIL',
       'TIPO', 'Unnamed: 30'], dtype=object)

In [144]:
csv_to_df('teatro.csv')

array(['PK', 'NOMBRE', 'DESCRIPCION-ENTIDAD', 'HORARIO', 'EQUIPAMIENTO',
       'TRANSPORTE', 'DESCRIPCION', 'ACCESIBILIDAD', 'CONTENT-URL',
       'NOMBRE-VIA', 'CLASE-VIAL', 'TIPO-NUM', 'NUM', 'PLANTA', 'PUERTA',
       'ESCALERAS', 'ORIENTACION', 'LOCALIDAD', 'PROVINCIA',
       'CODIGO-POSTAL', 'BARRIO', 'DISTRITO', 'COORDENADA-X',
       'COORDENADA-Y', 'LATITUD', 'LONGITUD', 'TELEFONO', 'FAX', 'EMAIL',
       'TIPO', 'Unnamed: 30'], dtype=object)

In [145]:
csv_to_df('cines.csv')

array(['PK', 'NOMBRE', 'DESCRIPCION-ENTIDAD', 'HORARIO', 'EQUIPAMIENTO',
       'TRANSPORTE', 'DESCRIPCION', 'ACCESIBILIDAD', 'CONTENT-URL',
       'NOMBRE-VIA', 'CLASE-VIAL', 'TIPO-NUM', 'NUM', 'PLANTA', 'PUERTA',
       'ESCALERAS', 'ORIENTACION', 'LOCALIDAD', 'PROVINCIA',
       'CODIGO-POSTAL', 'BARRIO', 'DISTRITO', 'COORDENADA-X',
       'COORDENADA-Y', 'LATITUD', 'LONGITUD', 'TELEFONO', 'FAX', 'EMAIL',
       'TIPO', 'Unnamed: 30'], dtype=object)

In [146]:
csv_to_df('conciertos.csv')

array(['PK', 'NOMBRE', 'DESCRIPCION-ENTIDAD', 'HORARIO', 'EQUIPAMIENTO',
       'TRANSPORTE', 'DESCRIPCION', 'ACCESIBILIDAD', 'CONTENT-URL',
       'NOMBRE-VIA', 'CLASE-VIAL', 'TIPO-NUM', 'NUM', 'PLANTA', 'PUERTA',
       'ESCALERAS', 'ORIENTACION', 'LOCALIDAD', 'PROVINCIA',
       'CODIGO-POSTAL', 'BARRIO', 'DISTRITO', 'COORDENADA-X',
       'COORDENADA-Y', 'LATITUD', 'LONGITUD', 'TELEFONO', 'FAX', 'EMAIL',
       'TIPO', 'Unnamed: 30'], dtype=object)

In [147]:
csv_to_df('mercadillos.csv')

array(['PK', 'NOMBRE', 'DESCRIPCION-ENTIDAD', 'HORARIO', 'EQUIPAMIENTO',
       'TRANSPORTE', 'DESCRIPCION', 'ACCESIBILIDAD', 'CONTENT-URL',
       'NOMBRE-VIA', 'CLASE-VIAL', 'TIPO-NUM', 'NUM', 'PLANTA', 'PUERTA',
       'ESCALERAS', 'ORIENTACION', 'LOCALIDAD', 'PROVINCIA',
       'CODIGO-POSTAL', 'BARRIO', 'DISTRITO', 'COORDENADA-X',
       'COORDENADA-Y', 'LATITUD', 'LONGITUD', 'TELEFONO', 'FAX', 'EMAIL',
       'TIPO', 'Unnamed: 30'], dtype=object)

In [148]:
csv_to_df('eventos_100d.csv')

array([' ID-EVENTO', 'TITULO', 'PRECIO', 'GRATUITO', 'LARGA-DURACION',
       'DIAS-SEMANA', 'DIAS-EXCLUIDOS', 'FECHA', 'FECHA-FIN', 'HORA',
       'DESCRIPCION', 'CONTENT-URL', 'TITULO-ACTIVIDAD', 'URL-ACTIVIDAD',
       'URL-INSTALACION', 'NOMBRE-INSTALACION',
       'ACCESIBILIDAD-INSTALACION', 'CLASE-VIAL-INSTALACION',
       'NOMBRE-VIA-INSTALACION', 'NUM-INSTALACION',
       'DISTRITO-INSTALACION', 'BARRIO-INSTALACION',
       'CODIGO-POSTAL-INSTALACION', 'COORDENADA-X', 'COORDENADA-Y',
       'LATITUD', 'LONGITUD', 'TIPO', 'AUDIENCIA', 'Unnamed: 29'],
      dtype=object)

In [149]:
csv_to_df('monumentos.csv')

array(['PK', 'NOMBRE', 'PDF', 'CONTENT-URL', 'NOMBRE-VIA', 'CLASE-VIAL',
       'TIPO-NUM', 'NUM', 'PLANTA', 'PUERTA', 'ESCALERAS', 'ORIENTACION',
       'LOCALIDAD', 'PROVINCIA', 'CODIGO-POSTAL', 'BARRIO', 'DISTRITO',
       'COORDENADA-X', 'COORDENADA-Y', 'LATITUD', 'LONGITUD', 'TELEFONO',
       'FAX', 'EMAIL', 'TIPO', 'Unnamed: 25'], dtype=object)

**=> Podemos constatar que todos los csv tienen la misma estructura de campos, excepto el fichero de eventos y el de monumentos**

### Creamos una función para obtener el porcentaje de valores nulos en cada columna

In [30]:
def null_vls(filename):
    dataframe = pd.read_csv(filename, sep=';', encoding='ansi')
    null_cols = dataframe.columns[dataframe.isnull().any()]
    null_count = dataframe[null_cols].isnull().sum()
    tot_count = dataframe.shape[0]
    null_pct = (null_count/tot_count).sort_values(ascending=False)
    return(100*null_pct)

In [31]:
null_vls('museos.csv')

ESCALERAS              100.000000
PUERTA                 100.000000
PLANTA                  97.101449
ORIENTACION             92.753623
FAX                     82.608696
DESCRIPCION             82.608696
EQUIPAMIENTO            69.565217
EMAIL                   31.884058
DESCRIPCION-ENTIDAD     28.985507
TELEFONO                 8.695652
TRANSPORTE               4.347826
HORARIO                  2.898551
LONGITUD                 1.449275
LATITUD                  1.449275
COORDENADA-Y             1.449275
COORDENADA-X             1.449275
dtype: float64

In [35]:
null_vls('parques.csv')

FAX                    100.000000
PLANTA                 100.000000
ESCALERAS              100.000000
EMAIL                   99.014778
ORIENTACION             97.536946
TELEFONO                97.536946
PUERTA                  95.566502
HORARIO                 85.221675
EQUIPAMIENTO            25.123153
TIPO                     9.852217
BARRIO                   2.955665
NUM                      2.955665
COORDENADA-X             2.463054
COORDENADA-Y             2.463054
LATITUD                  2.463054
LONGITUD                 2.463054
CODIGO-POSTAL            1.970443
DESCRIPCION              1.970443
TRANSPORTE               1.970443
TIPO-NUM                 0.492611
DESCRIPCION-ENTIDAD      0.492611
dtype: float64

In [33]:
null_vls('teatro.csv')

ESCALERAS              100.000000
PUERTA                  98.958333
ORIENTACION             96.875000
HORARIO                 96.875000
PLANTA                  94.791667
DESCRIPCION             94.791667
EQUIPAMIENTO            93.750000
FAX                     86.458333
DESCRIPCION-ENTIDAD     36.458333
EMAIL                   10.416667
TELEFONO                 5.208333
dtype: float64

In [36]:
null_vls('cines.csv')

FAX                    100.000000
ESCALERAS              100.000000
PUERTA                 100.000000
PLANTA                 100.000000
EMAIL                   97.142857
EQUIPAMIENTO            97.142857
HORARIO                 94.285714
DESCRIPCION-ENTIDAD     94.285714
DESCRIPCION             91.428571
ORIENTACION             88.571429
TELEFONO                14.285714
TRANSPORTE               2.857143
dtype: float64

In [37]:
null_vls('conciertos.csv')

ESCALERAS              100.000000
PUERTA                 100.000000
PLANTA                 100.000000
FAX                     96.103896
DESCRIPCION             94.805195
HORARIO                 93.506494
EQUIPAMIENTO            90.909091
ORIENTACION             88.311688
EMAIL                   77.922078
DESCRIPCION-ENTIDAD     63.636364
TELEFONO                50.649351
NUM                      1.298701
dtype: float64

In [38]:
null_vls('mercadillos.csv')

EMAIL                  100.000000
FAX                    100.000000
TELEFONO               100.000000
ESCALERAS              100.000000
PUERTA                 100.000000
PLANTA                 100.000000
DESCRIPCION-ENTIDAD    100.000000
DESCRIPCION             96.296296
ORIENTACION             88.888889
EQUIPAMIENTO            62.962963
NUM                     14.814815
TRANSPORTE               3.703704
HORARIO                  3.703704
dtype: float64

In [39]:
null_vls('eventos_100d.csv')

Unnamed: 29                  100.000000
DIAS-EXCLUIDOS                94.100719
PRECIO                        90.503597
DIAS-SEMANA                   69.784173
AUDIENCIA                     67.338129
DESCRIPCION                   51.798561
TITULO-ACTIVIDAD              48.920863
URL-ACTIVIDAD                 48.920863
HORA                          30.215827
LONGITUD                      11.798561
COORDENADA-Y                  11.798561
COORDENADA-X                  11.798561
LATITUD                       11.798561
URL-INSTALACION               11.654676
ACCESIBILIDAD-INSTALACION     11.654676
NOMBRE-INSTALACION            11.654676
CLASE-VIAL-INSTALACION        11.654676
NUM-INSTALACION               11.654676
DISTRITO-INSTALACION          11.654676
BARRIO-INSTALACION            11.654676
CODIGO-POSTAL-INSTALACION     11.654676
NOMBRE-VIA-INSTALACION        11.654676
TIPO                           3.597122
dtype: float64

In [40]:
null_vls('monumentos.csv')

TIPO             100.000000
EMAIL            100.000000
FAX              100.000000
TELEFONO         100.000000
ORIENTACION      100.000000
ESCALERAS        100.000000
PUERTA           100.000000
PLANTA           100.000000
CODIGO-POSTAL     20.833333
NUM               10.648148
BARRIO             2.777778
LONGITUD           0.925926
LATITUD            0.925926
COORDENADA-Y       0.462963
COORDENADA-X       0.462963
dtype: float64

### Constataciones
Debido a las diferencias en la estructura de los ficheros, distinguiremos entre 3 categorías de ficheros csv:
- Genérico, compartido para los datos de museos, parques, teatro, cines, conciertos y mercadillos
- Específico de monumentos
- Específico de eventos

#### CSV genérico
Tras este análisis de valores nulos, vemos que en todos los ficheros existe una serie de campos que están prácticamente siempre vacíos. Estos campos son los siguientes:
- ESCALERAS
- FAX
- EMAIL
- ORIENTACION
- EQUIPAMIENTO
- PUERTA
- PLANTA
- HORARIO
- DESCRIPCION

Bajando al detalle del contenido de los campos se decide que se puede prescindir de los 5 primeros, y mantener los campos PUERTA, PLANTA, HORARIO y DESCRIPCION, cuya información aunque escasa podría ser relevante. En un futuro se podrá descartar estos campos si se aprecia que esta infrmación no es explotada.


Tras realizar los contratos de interfaz de las distintas fuentes y analizar los ficheros apreciamos que:
- Existen campos dummy que llevan el nombre que empiezan por 'Unnamed:'
- La coordenada x de geolocalización se encuentra tanto como 'COORDENADA-X' como 'LONGITUD', siendo esta última más usual
- La coordenada y de geolocalización se encuentra tanto como 'COORDENADA-Y' como 'LATITUD', siendo esta última más usual
- El campo 'PK' no resulta útil, identifica una clave en otro sistema
- El campo 'TIPO-NUM' no resulta útil
- El campo 'ACCESIBILIDAD' no resulta útil, desconocemos su contenido
- El campo 'ORIENTACION' no resulta útil, desconocemos su contenido

#### CSV de monumentos
Tras el análisis de valores nulos, vemos que en el fichero existe una serie de campos que están prácticamente siempre vacíos. Estos campos son los siguientes:
- ESCALERAS
- FAX
- EMAIL
- ORIENTACION
- TIPO
- PUERTA
- PLANTA
- TELEFONO

Al igual que en el caso del csv genérico, se decide prescindir de la mayoría, y mantener los campos PUERTA y PLANTA, cuya información podría ser relevante en caso de venir informada.



#### CSV de eventos
Tras el análisis de valores nulos, vemos que en el fichero existe una serie de campos que están prácticamente siempre vacíos. Estos campos son los siguientes:
- ID-EVENTO no resulta útil, identifica una clave en otro sistema
- DIAS-EXCLUIDOS no resulta útil ya que está muy poco alimentado
- PRECIO no resulta útil ya que está muy poco alimentado
- TITULO-ACTIVIDAD no resulta útil
- URL-ACTIVIDAD no resulta útil
- URL-INSTALACION no resulta útil
- NOMBRE-INSTALACION no resulta útil
- ACCESIBILIDAD-INSTALACION no resulta útil
- La coordenada x de geolocalización se encuentra tanto como 'COORDENADA-X' como 'LONGITUD', siendo esta última más usual
- La coordenada y de geolocalización se encuentra tanto como 'COORDENADA-Y' como 'LATITUD', siendo esta última más usual
- DIAS-SEMANA

En este caso, se decide prescindir de todos estos campos, y mantener el campo DIAS-SEMANA, cuya información podría ser relevante en caso de venir informada.

# Generación de los dataframes específicos
Con las peculiaridades detectadas en las etapas de análisis de las fuentes de datos podemos customizar los dataframes resultantes. Nos basaremos en las observaciones realizadas de los datos que obtenemos de los distintos orígenes para decidir que columnas mantenemos y cuales descartamos.

In [29]:
dic={}
dic["&amp;"]=  "&"
dic["&#65;"]=  "A"
dic["&#66;"]=  "B"
dic["&#67;"]=  "C"
dic["&#68;"]=  "D"
dic["&#69;"]=  "E"
dic["&#70;"]=  "F"
dic["&#71;"]=  "G"
dic["&#72;"]=  "H"
dic["&#73;"]=  "I"
dic["&#74;"]=  "J"
dic["&#75;"]=  "K"
dic["&#76;"]=  "L"
dic["&#77;"]=  "M"
dic["&#78;"]=  "N"
dic["&#79;"]=  "O"
dic["&#80;"]=  "P"
dic["&#81;"]=  "Q"
dic["&#82;"]=  "R"
dic["&#83;"]=  "S"
dic["&#84;"]=  "T"
dic["&#85;"]=  "U"
dic["&#86;"]=  "V"
dic["&#87;"]=  "W"
dic["&#88;"]=  "X"
dic["&#89;"]=  "Y"
dic["&#90;"]=  "Z"
dic["&#97;"]=  "a"
dic["&#98;"]=  "b"
dic["&#99;"]=  "c"
dic["&#100;"]=  "d"
dic["&#101;"]=  "e"
dic["&#102;"]=  "f"
dic["&#103;"]=  "g"
dic["&#104;"]=  "h"
dic["&#105;"]=  "i"
dic["&#106;"]=  "j"
dic["&#107;"]=  "k"
dic["&#108;"]=  "l"
dic["&#109;"]=  "m"
dic["&#110;"]=  "n"
dic["&#111;"]=  "o"
dic["&#112;"]=  "p"
dic["&#113;"]=  "q"
dic["&#114;"]=  "r"
dic["&#115;"]=  "s"
dic["&#116;"]=  "t"
dic["&#117;"]=  "u"
dic["&#118;"]=  "v"
dic["&#119;"]=  "w"
dic["&#120;"]=  "x"
dic["&#121;"]=  "y"
dic["&#122;"]=  "z"
dic["&Agrave;"]=  "À"
dic["&Aacute;"]=  "Á"
dic["&Acirc;"]=  "Â"
dic["&Atilde;"]=  "Ã"
dic["&Auml;"]=  "Ä"
dic["&Aring;"]=  "Å"
dic["&AElig;"]=  "Æ"
dic["&Ccedil;"]=  "Ç"
dic["&Egrave;"]=  "È"
dic["&Eacute;"]=  "É"
dic["&Ecirc;"]=  "Ê"
dic["&Euml;"]=  "Ë"
dic["&Igrave;"]=  "Ì"
dic["&Iacute;"]=  "Í"
dic["&Icirc;"]=  "Î"
dic["&Iuml;"]=  "Ï"
dic["&ETH;"]=  "Ð"
dic["&Ntilde;"]=  "Ñ"
dic["&ntilde;"]=  "ñ"
dic["&Ograve;"]=  "Ò"
dic["&Oacute;"]=  "Ó"
dic["&oacute;"]=  "ó"
dic["&Ocirc;"]=  "Ô"
dic["&Otilde;"]=  "Õ"
dic["&Ouml;"]=  "Ö"
dic["&Oslash;"]=  "Ø"
dic["&Ugrave;"]=  "Ù"
dic["&Uacute;"]=  "Ú"
dic["&uacute;"]=  "ú"
dic["&Ucirc;"]=  "Û"
dic["&Uuml;"]=  "Ü"
dic["&uuml;"]=  "ü"
dic["&Yacute;"]=  "Ý"
dic["&THORN;"]=  "Þ"
dic["&szlig;"]=  "ß"
dic["&agrave;"]=  "à"
dic["&aacute;"]=  "á"
dic["&acirc;"]=  "â"
dic["&atilde;"]=  "ã"
dic["&auml;"]=  "ä"
dic["&aring;"]=  "å"
dic["&aelig;"]=  "æ"
dic["&ccedil;"]=  "ç"
dic["&egrave;"]=  "è"
dic["&eacute;"]=  "é"
dic["&ecirc;"]=  "ê"
dic["&euml;"]=  "ë"
dic["&igrave;"]=  "ì"
dic["&iacute;"]=  "í"
dic["&icirc;"]=  "î"
dic["&iuml;"]=  "ï"
dic["&eth;"]=  "ð"
dic["&laquo;"]="«"
dic["&raquo;"]="»"
dic["&lsquo;"]="‘"
dic["&rsquo;"]="’"
dic["&sbquo;"]="‚"
dic["&ldquo;"]="“"
dic["&rdquo;"]="”" 
dic["&bdquo;"]="„"
dic["&lsaquo;"]="‹"
dic["&rsaquo;"]="›"
dic["&#5065;"]="Ꮙ"
dic["&#8219;"]="‛"
dic["&#8223;"]="‟"
dic["&#9048;"]="⍘"
dic["&#9054;"]="⍞"
dic["&#10075;"]="❛"
dic["&#10076;"]="❜"
dic["&#10077;"]="❝"
dic["&#10078;"]="❞"
dic["&#10094;"]="❮"
dic["&#10095;"]="❯"
dic["&#12317;"]="〝"
dic["&#12318;"]="〞"
dic["&#12319;"]="〟"
dic["&#65282;"]="＂"

In [41]:
def clean_string(string):
    for i in dic.keys():
        string=string.replace(i,dic[i])
    return(string)


def csv_to_df_generic(filename):
    dataframe = pd.read_csv(filename, sep=';', encoding='ansi')
    # eliminar columnas vacías o no explotables
    dataframe = dataframe.drop(columns=['PK','ESCALERAS','ORIENTACION','FAX','EMAIL','DESCRIPCION','EQUIPAMIENTO','ACCESIBILIDAD','TIPO-NUM','Unnamed: 30','PLANTA','PUERTA','COORDENADA-X', 'COORDENADA-Y'])
    # alimentar los valores ausentes del campo TIPO con la moda del campo
    dataframe['TIPO'].fillna(dataframe['TIPO'].mode()[0], inplace=True)
    # quedarse con la última parte del campo TIPO, tras el último /
    for i in range(0, len(dataframe)):
        var=dataframe['TIPO'].iloc[i].rfind('/')+1
        dataframe['TIPO'].iloc[i] = dataframe['TIPO'].iloc[i][var:]
    # alimentar los valores ausentes del campo CODIGO-POSTAL con un valor por defecto
    dataframe['CODIGO-POSTAL'] = dataframe['CODIGO-POSTAL'].fillna('Desconocido')
    # alimentar valores nulos de columna CODIGO-POSTAL con un valor por defecto
    dataframe['DESCRIPCION-ENTIDAD'] = dataframe['DESCRIPCION-ENTIDAD'].fillna('Descripción no disponible')
    # alimentar valores nulos de columna NUM con un valor por defecto
    dataframe['NUM'] = dataframe['NUM'].fillna('S/N')
    # limpiar los strings para eliminar cadenas de unicode
    dataframe['DESCRIPCION-ENTIDAD']=dataframe['DESCRIPCION-ENTIDAD'].apply(lambda x: clean_string(x))
        #dataframe['DIRECCION']=dataframe['CLASE-VIAL'] + ' ' + dataframe['NOMBRE-VIA'] + ' ' + dataframe['NUM'].astype(str)
    #dataframe['LATITUD']=dataframe['LATITUD'].apply(lambda x: str(x).replace(",","."))
    #dataframe['LONGITUD']=dataframe['LONGITUD'].apply(lambda x: str(x).replace(",","."))
    return(dataframe)

def csv_to_df_eventos(filename):
    dataframe = pd.read_csv(filename, sep=';', encoding='ansi')
    # eliminar columnas vacías o no explotables
    dataframe = dataframe.drop(columns=[' ID-EVENTO','PRECIO','DIAS-EXCLUIDOS','TITULO-ACTIVIDAD','URL-ACTIVIDAD','URL-INSTALACION', 'NOMBRE-INSTALACION', 'ACCESIBILIDAD-INSTALACION','COORDENADA-X','COORDENADA-Y','Unnamed: 29'])
    # alimentar valores nulos de columna NUM-INSTALACION con un valor por defecto
    dataframe['NUM-INSTALACION'] = dataframe['NUM-INSTALACION'].fillna('S/N')
    # alimentar valores nulos de columna CODIGO-POSTAL con un valor por defecto
    dataframe['CODIGO-POSTAL-INSTALACION'] = dataframe['CODIGO-POSTAL-INSTALACION'].fillna('Desconocido')
    # alimentar los valores ausentes del campo TIPO con un valor por defecto
    dataframe['TIPO'].fillna('/Evento no categorizado', inplace=True)
    # alimentar valores nulos de columna NOMBRE-VIA-INSTALACION con un valor por defecto
    dataframe['NOMBRE-VIA-INSTALACION'] = dataframe['NOMBRE-VIA-INSTALACION'].fillna('Desconocido')
    # limpiar los strings para eliminar cadenas de unicode
    dataframe['NOMBRE-VIA-INSTALACION']=dataframe['NOMBRE-VIA-INSTALACION'].apply(lambda x: clean_string(x))
    # limpiar los campos fecha para eliminar la componente hora
    for i in range(0, len(dataframe)):
        dataframe['FECHA'].iloc[i] = dataframe['FECHA'].iloc[i][:10]
        dataframe['FECHA-FIN'].iloc[i] = dataframe['FECHA-FIN'].iloc[i][:10]
    # convertir los campos fecha a formato fecha
    dataframe['FECHA']= pd.to_datetime(dataframe['FECHA'])
    dataframe['FECHA-FIN']= pd.to_datetime(dataframe['FECHA-FIN'])
    # quedarse con la última parte del campo TIPO, tras el último /
    for i in range(0, len(dataframe)):
        var=dataframe['TIPO'].iloc[i].rfind('/')+1
        dataframe['TIPO'].iloc[i] = dataframe['TIPO'].iloc[i][var:]
    # alimentar valores nulos de columna AUDIENCIA con un valor por defecto
    dataframe['AUDIENCIA'] = dataframe['AUDIENCIA'].fillna('Público general')
    # quedarse con la última parte del campo AUDIENCIA, tras el último /
    for i in range(0, len(dataframe)):
        var=dataframe['AUDIENCIA'].iloc[i].rfind('/')+1
        dataframe['AUDIENCIA'].iloc[i] = dataframe['AUDIENCIA'].iloc[i][var:]
    return(dataframe)
    
def csv_to_df_monumentos(filename):
    dataframe = pd.read_csv(filename, sep=';', encoding='ansi')
    # eliminar columnas vacías o no explotables
    dataframe = dataframe.drop(columns=['PK','ESCALERAS','ORIENTACION','FAX','EMAIL','TELEFONO','TIPO-NUM','COORDENADA-X','COORDENADA-Y','Unnamed: 25'])
    # alimentar la columna TIPO con un valor por defecto
    dataframe['TIPO']=dataframe['TIPO'].fillna('Monumentos')
    # alimentar valores nulos de columna CODIGO-POSTAL con un valor por defecto
    dataframe['CODIGO-POSTAL'] = dataframe['CODIGO-POSTAL'].fillna('Desconocido')
    # limpiar los strings para eliminar cadenas de unicode
    dataframe['NOMBRE']=dataframe['NOMBRE'].apply(lambda x: clean_string(x))
    # reemplazar el separador decimal de punto a coma en los campos LATITUD y LONGITUD
    dataframe['LATITUD']=dataframe['LATITUD'].apply(lambda x: round(x,6))
    dataframe['LONGITUD']=dataframe['LONGITUD'].apply(lambda x: round(x,6))
    return(dataframe)
    
def df(filename):
    var=filename[0:-4]
    if var=='monumentos':
        globals()["df_"+str(var)]=csv_to_df_monumentos(filename)
    elif var=='eventos_100d':
        globals()["df_"+str(var)]=csv_to_df_eventos(filename)
    else:
        globals()["df_"+str(var)]=csv_to_df_generic(filename)

In [241]:
cuidado al integrarlo, puede dar problemas con los PK decimales, primero redondear
df_museos = df_museos.astype({'NUM': np.int64})

reemplazar PK por una PK propia: nombre || fecha para eventos
pos=0
col_name='ID'
ID=df_eventos_100d['TITULO']+df_eventos_100d['FECHA'].astype('string')+df_eventos_100d['FECHA-FIN'].astype('string')
df_eventos_100d.insert(pos, col_name, ID)

y después duplicar los duplicados que pueda haber
df_eventos_100d.drop_duplicates(subset='ID', keep='first', inplace=True)

In [None]:
coordenadas gps, redondeadas a 6 decimales

In [48]:
df('monumentos.csv')
df('museos.csv')
df('parques.csv')
df('teatro.csv')
df('cines.csv')
df('conciertos.csv')
df('mercadillos.csv')
df('eventos_100d.csv')

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_with_indexer(indexer, value)


In [45]:
df_monumentos.head(1)

Unnamed: 0,NOMBRE,PDF,CONTENT-URL,NOMBRE-VIA,CLASE-VIAL,NUM,PLANTA,PUERTA,LOCALIDAD,PROVINCIA,CODIGO-POSTAL,BARRIO,DISTRITO,LATITUD,LONGITUD,TIPO
0,Almacenes Rodríguez,https://patrimonioypaisaje.madrid.es/FrameWork...,https://patrimonioypaisaje.madrid.es/sites/v/i...,CABALLERO DE GRACIA,Calle,3,,,MADRID,MADRID,28013,SOL,CENTRO,40.419716,-3.700924,Monumentos


In [49]:
df_museos.head(1)

Unnamed: 0,NOMBRE,DESCRIPCION-ENTIDAD,HORARIO,TRANSPORTE,CONTENT-URL,NOMBRE-VIA,CLASE-VIAL,NUM,LOCALIDAD,PROVINCIA,CODIGO-POSTAL,BARRIO,DISTRITO,LATITUD,LONGITUD,TELEFONO,TIPO
0,Casa Museo Lope de Vega,"'Mi casilla, mi quietud, mi güertecillo y estu...",De martes a domingo de 10 a 18 horas Cerrado l...,Metro: Antón Martín (línea 1).Bus: M1Bicimad:E...,http://www.madrid.es/sites/v/index.jsp?vgnextc...,CERVANTES,CALLE,11.0,MADRID,MADRID,28014,CORTES,CENTRO,40.414358,-3.697474,914 299 216,Museos


In [50]:
df_monumentos.to_csv('set_monumentos.csv', sep=';', index=False)
df_monumentos.to_csv('set_museos.csv', sep=';', index=False)
df_monumentos.to_csv('set_parques.csv', sep=';', index=False)
df_monumentos.to_csv('set_teatro.csv', sep=';', index=False)
df_monumentos.to_csv('set_cines.csv', sep=';', index=False)
df_monumentos.to_csv('set_conciertos.csv', sep=';', index=False)
df_monumentos.to_csv('set_mercadillos.csv', sep=';', index=False)
df_monumentos.to_csv('set_eventos_100d.csv', sep=';', index=False)

In [579]:
pd.read_json(r'C:/Users/carlos.ibanez/Downloads/atrapalo.json', orient='split')

Unnamed: 0,link,titulo,precio,precio_ant,descripcion,duracion,fechas_evento,nota_media,num_opiniones,categoria,subcategoria,direccion,zzlocalidad
0,[https://www.atrapalo.com/actividades/entrada-...,[Entrada a Safari Madrid: una aventura salvaje...,"[13,60€]",[15€],"[<div class=""descCorta relative lim-text-esp"">...",[1 jornada\n ],[\n ...,[\n 8.7\n ],[ 384],[Actividades Infantiles],[Actividades Con Animales],"[\n Carretera M-507, km 22. Ald...",[Madrid]
1,[https://www.atrapalo.com/actividades/tu-prime...,"[Tu primer vuelo deportivo, ¡pilotarás el avión!]",[55€],[105€],"[<div class=""descCorta relative lim-text-esp"">...",[según opción escogida\n ],[\n ...,[\n 9.7\n ],[ 124],[Deportes Y Aventuras],[Vuelos En Helicóptero Y Avioneta],"[\n Carretera cm-4003, km 15,5....",[Madrid Provincia]
2,[https://www.atrapalo.com/actividades/spa-ilim...,[Spa ilimitado y brunch para dos en Las Rejas],"[23,97€]",[48€],"[<div class=""descCorta relative lim-text-esp"">...",,[\n ...,[\n 8.2\n ],[ 168],[Bienestar],[Spas Con Gastronomía],"[\n C/ Isaac Albeniz, 18\n ...",[Madrid]
3,[https://www.atrapalo.com/actividades/masaje-a...,[Masaje a elegir individual o en pareja],"[17,50€]",[35€],"[<div class=""descCorta relative lim-text-esp"">...",[45 minutos\n ],[\n ...,[\n 8.7\n ],[ 87],[Bienestar],[Masajes Relajantes],[\n Calle Preciados 11. 3º f \n...,[Madrid Provincia]
4,[https://www.atrapalo.com/actividades/baoba-me...,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
102,[https://www.atrapalo.com/actividades/vuelo-en...,[Vuelo en parapente en alta montaña],[85€],[89€],"[<div class=""descCorta relative lim-text-esp"">...",[2 horas\n ],[\n ...,[\n 10\n ],[ 1],[Deportes Y Aventuras],[Parapente],[\n A concretar con el proveedo...,[Madrid Provincia]
103,[https://www.atrapalo.com/actividades/escuela-...,,,,,,,,,,,,
104,[https://www.atrapalo.com/actividades/ruta-a-c...,[Ruta a Caballo en Finca Paraíso],[13€],[15€],"[<div class=""descCorta relative lim-text-esp"">...",,[\n ...,[\n 8.7\n ],[ 3],[Deportes Y Aventuras],[Montar A Caballo],[\n Carr. al VRSU de Colmenar V...,[Madrid]
105,[https://www.atrapalo.com/actividades/hipica-e...,,,,,,,,,,,,
