In [6]:
import numpy as np
import pandas as pd
import openpyxl
from ydata_profiling import ProfileReport

In [8]:
df_turismo = pd.read_csv("data/alojamientos_turisticos.csv" , encoding='latin-1', sep=';')

In [10]:
profile = ProfileReport(df_turismo, title ="Perfilado turismo")
profile.to_notebook_iframe()
profile.to_file("turismo.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

100%|██████████| 14/14 [00:01<00:00, 13.21it/s]


Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

In [19]:
# Limpiar la columna 'localidad': reemplazar tildes por sus homónimos sin tilde y eliminar otros caracteres especiales
import re
import unicodedata
import pandas as pd

# Buscar la columna de localidad (case-insensitive, o por substring 'local')
cols_local = [c for c in df_turismo.columns if c.lower() == 'localidad']
if not cols_local:
    cols_local = [c for c in df_turismo.columns if 'local' in c.lower()]

if not cols_local:
    print('No se encontró una columna de "localidad" en el DataFrame. Columnas disponibles:')
    print(df_turismo.columns.tolist())
else:
    col = cols_local[0]
    print(f"Usando columna: {col}")

    def clean_localidad_val(v):
        if pd.isna(v):
            return pd.NA
        s = str(v)
        # Normalizar y eliminar marcas diacríticas (tildes)
        s2 = unicodedata.normalize('NFKD', s)
        s2 = ''.join(ch for ch in s2 if not unicodedata.combining(ch))
        # Eliminar otros caracteres especiales: dejar solo letras, dígitos y espacios
        s2 = re.sub(r'[^A-Za-z0-9\s]', '', s2)
        # Colapsar espacios y recortar
        s2 = re.sub(r'\s+', ' ', s2).strip()
        return s2 if s2 != '' else pd.NA

    # Crear columna limpia
    df_turismo['localidad_clean'] = df_turismo[col].apply(clean_localidad_val)

    # Estadísticas y ejemplos
    total = len(df_turismo)
    n_null_orig = int(df_turismo[col].isna().sum())
    n_null_clean = int(df_turismo['localidad_clean'].isna().sum())

    print(f"Total filas: {total}")
    print(f"Nulos originales en '{col}': {n_null_orig}")
    print(f"Nulos en 'localidad_clean': {n_null_clean}")

    # Mostrar ejemplos donde hubo cambio
    mask_diff = (df_turismo[col].fillna('') != df_turismo['localidad_clean'].fillna(''))
    n_diff = int(mask_diff.sum())
    print(f"Registros modificados (original != limpio): {n_diff}")
    if n_diff > 0:
        display(df_turismo.loc[mask_diff, [col, 'localidad_clean']].drop_duplicates().head(50))

    print('\nTop 20 valores limpios por frecuencia:')
    display(df_turismo['localidad_clean'].value_counts().head(20).to_frame('count'))

    print('\nHe creado la columna `localidad_clean`. Si quieres que reemplace la columna original por la limpia, dímelo.')


Usando columna: localidad
Total filas: 10974
Nulos originales en 'localidad': 3
Nulos en 'localidad_clean': 3
Registros modificados (original != limpio): 967


Unnamed: 0,localidad,localidad_clean
140,"Cabrera, La",Cabrera La
220,"Escorial, El",Escorial El
330,Villaviciosa de Odón,Villaviciosa de Odon
341,Móstoles,Mostoles
354,Alcalá de Henares,Alcala de Henares
359,Villarejo de Salvanés,Villarejo de Salvanes
373,San Sebastián de los Reyes,San Sebastian de los Reyes
408,Rascafría,Rascafria
409,San Martín de Valdeiglesias,San Martin de Valdeiglesias
415,Leganés,Leganes



Top 20 valores limpios por frecuencia:


Unnamed: 0_level_0,count
localidad_clean,Unnamed: 1_level_1
Madrid,8793
Alcala de Henares,212
San Sebastian de los Reyes,99
San Martin de Valdeiglesias,91
Torrejon de Ardoz,58
Cercedilla,49
Guadarrama,46
Alpedrete,46
Chinchon,45
Rascafria,42



He creado la columna `localidad_clean`. Si quieres que reemplace la columna original por la limpia, dímelo.


In [20]:
# Normalizar variantes en la columna 'puerta' y mostrar conteos (crea columna nueva `puerta_norm`)
import re
import pandas as pd

col_candidates = [c for c in df_turismo.columns if c.lower() == 'puerta']
if not col_candidates:
    col_candidates = [c for c in df_turismo.columns if 'puerta' in c.lower()]

if not col_candidates:
    print("No se encontró la columna 'puerta'. Columnas disponibles:")
    print(df_turismo.columns.tolist())
else:
    col = col_candidates[0]
    print(f"Usando columna: {col}")

    # Backup de la columna original (si no existe ya)
    if 'puerta_original' not in df_turismo.columns:
        df_turismo['puerta_original'] = df_turismo[col]

    ser = df_turismo[col]
    n_null = int(ser.isna().sum())

    # Función de normalización
    def normalize_puerta(v):
        if pd.isna(v):
            return 'PRINCIPAL'
        s = str(v).strip().lower()
        if s == '':
            return 'PRINCIPAL'
        # eliminar puntos y espacios internos para facilitar detección
        s_clean = re.sub(r'[\.\s]', '', s)

        # reglas heurísticas (buscan fragmentos comunes)
        if any(tok in s_clean for tok in ('izq','izquierda','izqui','iz')):
            return 'IZQUIERDA'
        if any(tok in s_clean for tok in ('dcha','dch','dc','derech','der','dr','d')):
            return 'DERECHA'
        if any(tok in s_clean for tok in ('amb','both','ambas')):
            return 'AMBAS'
        if any(tok in s_clean for tok in ('cen','centro','ctr')):
            return 'CENTRO'
        # si no se detecta ninguna regla, devolver 'OTRO' para revisión
        return 'OTRO'

    # Aplicar la normalización en nueva columna
    df_turismo['puerta_norm'] = df_turismo[col].apply(normalize_puerta)

    # Estadísticas
    n_total = len(df_turismo)
    n_empty_after_strip = int((df_turismo[col].fillna('').astype(str).str.strip() == '').sum())

    print(f"Total filas: {n_total}")
    print(f"Nulos (NaN) en original: {n_null}")
    print(f"Cadenas vacías (después de strip): {n_empty_after_strip}")

    print('\nConteo por valores normalizados (incluye PRINCIPAL):')
    display(df_turismo['puerta_norm'].value_counts(dropna=False).rename_axis('puerta_norm').reset_index(name='count'))

    # Mostrar ejemplos de los valores originales que fueron etiquetados como 'OTRO'
    otros_mask = df_turismo['puerta_norm'] == 'OTRO'
    n_otro = int(otros_mask.sum())
    print(f"\nRegistros mapeados como 'OTRO': {n_otro}")
    if n_otro > 0:
        print('Ejemplos de valores originales clasificados como OTRO (hasta 30):')
        display(df_turismo.loc[otros_mask, col].drop_duplicates().head(30).to_frame(name=col))

    print('\nTop 20 valores originales por frecuencia (para inspección):')
    display(df_turismo[col].fillna('').astype(str).str.strip().value_counts().head(20).to_frame('count'))

    print('\nSi quieres que reemplace la columna original `puerta` por `puerta_norm` (sobrescribiendo), dime y lo hago.')


Usando columna: puerta
Total filas: 10974
Nulos (NaN) en original: 2859
Cadenas vacías (después de strip): 2859

Conteo por valores normalizados (incluye PRINCIPAL):


Unnamed: 0,puerta_norm,count
0,OTRO,5665
1,PRINCIPAL,2859
2,DERECHA,1509
3,IZQUIERDA,872
4,CENTRO,69



Registros mapeados como 'OTRO': 5665
Ejemplos de valores originales clasificados como OTRO (hasta 30):


Unnamed: 0,puerta
4,2
11,A
32,PTA. I
109,C
110,3
130,B
178,1
216,A y B
297,-
318,5 y 6



Top 20 valores originales por frecuencia (para inspección):


Unnamed: 0_level_0,count
puerta,Unnamed: 1_level_1
,2859
A,942
B,850
D,627
C,612
DCHA.,333
IZQ.,309
1,283
2,242
DCHA,202



Si quieres que reemplace la columna original `puerta` por `puerta_norm` (sobrescribiendo), dime y lo hago.


In [21]:
# Normalizar variantes en la columna 'VIA_TIPO' sin modificar nulos (crea `via_tipo_norm`)
import re
import pandas as pd

# Buscar columna candidates: prefer exact match 'via_tipo', si no buscar columnas que contengan 'via' y 'tipo' o empiecen por 'via'
col_candidates = [c for c in df_turismo.columns if c.lower() == 'via_tipo' or c.lower().replace(' ', '_') == 'via_tipo']
if not col_candidates:
    col_candidates = [c for c in df_turismo.columns if ('via' in c.lower() and 'tipo' in c.lower())]
if not col_candidates:
    col_candidates = [c for c in df_turismo.columns if c.lower().startswith('via')]

if not col_candidates:
    print("No se encontró una columna de tipo 'VIA_TIPO'. Columnas disponibles:")
    print(df_turismo.columns.tolist())
else:
    col = col_candidates[0]
    print(f"Usando columna: {col}")

    # Guardar copia original si no existe
    if 'via_tipo_original' not in df_turismo.columns:
        df_turismo['via_tipo_original'] = df_turismo[col]

    ser = df_turismo[col]
    n_null = int(ser.isna().sum())

    # Función de normalización: PRESERVA nulos (devuelve pd.NA para ellos)
    # Si no se detecta una categoría conocida, devuelve el valor original sin modificar.
    def normalize_via_tipo(v):
        if pd.isna(v):
            return pd.NA
        s = str(v).strip().lower()
        if s == '':
            # tratar cadena vacía como faltante (pero mantiene como NA)
            return pd.NA
        s_clean = re.sub(r'[\.\,\s\-\/]', '', s)

        # Revisar en orden de especificidad
        # CARRETERA
        if any(tok in s_clean for tok in ('carretera','ctra','ctrae','ctre')):
            return 'CARRETERA'
        # CARRERA
        if any(tok in s_clean for tok in ('carrera','cra','crr','crra')):
            return 'CARRERA'
        # AVENIDA
        if any(tok in s_clean for tok in ('avenida','avda','avd','av')):
            return 'AVENIDA'
        # CALLE
        if any(tok in s_clean for tok in ('calle','cll','clle','cl','cal')):
            return 'CALLE'

        # si no coincide, devolver el valor original sin modificar
        return v

    df_turismo['via_tipo_norm'] = df_turismo[col].apply(normalize_via_tipo)

    # Estadísticas
    n_total = len(df_turismo)
    n_empty_after_strip = int((df_turismo[col].fillna('').astype(str).str.strip() == '').sum())

    print(f"Total filas: {n_total}")
    print(f"Nulos (NaN) en original (se preservan): {n_null}")
    print(f"Cadenas vacías (después de strip): {n_empty_after_strip}")

    print('\nConteo por valores normalizados (pd.NA preservado):')
    display(df_turismo['via_tipo_norm'].value_counts(dropna=False).rename_axis('via_tipo_norm').reset_index(name='count'))

    # Ejemplos de valores que no fueron mapeados a una categoría conocida (se dejaron como vinieron)
    mask_unchanged = df_turismo[col].notna() & (df_turismo['via_tipo_norm'] == df_turismo[col])
    n_unchanged = int(mask_unchanged.sum())
    print(f"\nRegistros que se dejaron sin modificar (no coincidieron con reglas): {n_unchanged}")
    if n_unchanged > 0:
        print('Ejemplos de valores originales no mapeados (hasta 30):')
        display(df_turismo.loc[mask_unchanged, col].drop_duplicates().head(30).to_frame(name=col))

    print('\nTop 20 valores originales por frecuencia (para inspección):')
    display(df_turismo[col].fillna('').astype(str).str.strip().value_counts().head(20).to_frame('count'))

    print('\nNota: los valores nulos se han preservado (no se reemplazaron). Si quieres que reemplace las cadenas vacías por NaN o por un valor, dímelo.')


Usando columna: via_tipo
Total filas: 10974
Nulos (NaN) en original (se preservan): 0
Cadenas vacías (después de strip): 0

Conteo por valores normalizados (pd.NA preservado):


Unnamed: 0,via_tipo_norm,count
0,CALLE,9413
1,AVENIDA,478
2,PLAZA,386
3,PASEO,267
4,CARRETERA,113
5,TRVA,65
6,CMNO,49
7,RONDA,34
8,CSTAN,32
9,CARRERA,30



Registros que se dejaron sin modificar (no coincidieron con reglas): 10335
Ejemplos de valores originales no mapeados (hasta 30):


Unnamed: 0,via_tipo
0,PASEO
1,CALLE
24,PLAZA
54,CUSTA
352,BULEV
368,CSTAN
384,GTA
520,TRVA
567,COL
650,CMNO



Top 20 valores originales por frecuencia (para inspección):


Unnamed: 0_level_0,count
via_tipo,Unnamed: 1_level_1
CALLE,9395
AVDA,469
PLAZA,386
PASEO,267
CTRA,113
TRVA,65
CMNO,49
RONDA,34
CSTAN,32
CRA,30



Nota: los valores nulos se han preservado (no se reemplazaron). Si quieres que reemplace las cadenas vacías por NaN o por un valor, dímelo.


In [None]:
# Reemplazar columnas originales por las versiones normalizadas (respaldo previo si procede), eliminar columnas temporales, mostrar un resumen y exportar a CSV
import pandas as pd

# Respaldo de localidad original si no existe
if 'localidad_original' not in df_turismo.columns:
    df_turismo['localidad_original'] = df_turismo['localidad']

# Asegurar que las columnas normalizadas existen
cols_to_apply = []
if 'puerta_norm' in df_turismo.columns:
    cols_to_apply.append(('puerta', 'puerta_norm'))
if 'via_tipo_norm' in df_turismo.columns:
    cols_to_apply.append(('via_tipo', 'via_tipo_norm'))
if 'localidad_clean' in df_turismo.columns:
    cols_to_apply.append(('localidad', 'localidad_clean'))

for orig, norm in cols_to_apply:
    df_turismo[orig] = df_turismo[norm]

print('Reemplazo aplicado para las siguientes columnas:')
for orig, norm in cols_to_apply:
    print(f" - {orig}  <=  {norm}")

# Eliminar columnas temporales usadas en normalización
cols_to_drop = [c for c in ('puerta_norm', 'via_tipo_norm', 'localidad_clean') if c in df_turismo.columns]
if cols_to_drop:
    df_turismo.drop(columns=cols_to_drop, inplace=True)
    print(f"\nColumnas temporales eliminadas: {cols_to_drop}")
else:
    print('\nNo se encontraron columnas temporales para eliminar.')

print('\nResumen de conteos después del reemplazo:')
for orig, _ in cols_to_apply:
    print(f"\n{orig} — top 10 valores:")
    display(df_turismo[orig].fillna('NaN').value_counts().head(10).to_frame('count'))

# Exportar el DataFrame corregido a CSV
output_path = 'data/alojamientos_turisticos_corregido.csv'
# Usar latin-1 y sep=';' para mantener consistencia con archivos anteriores
df_turismo.to_csv(output_path, index=False, encoding='latin-1', sep=';')
print(f"\nArchivo exportado: {output_path} (encoding=latin-1, sep=';')")


Reemplazo aplicado para las siguientes columnas:
 - puerta  <=  puerta_norm
 - via_tipo  <=  via_tipo_norm
 - localidad  <=  localidad_clean

Resumen de conteos después del reemplazo:

puerta — top 10 valores:


Unnamed: 0_level_0,count
puerta,Unnamed: 1_level_1
OTRO,5665
PRINCIPAL,2859
DERECHA,1509
IZQUIERDA,872
CENTRO,69



via_tipo — top 10 valores:


Unnamed: 0_level_0,count
via_tipo,Unnamed: 1_level_1
CALLE,9413
AVENIDA,478
PLAZA,386
PASEO,267
CARRETERA,113
TRVA,65
CMNO,49
RONDA,34
CSTAN,32
CARRERA,30



localidad — top 10 valores:


Unnamed: 0_level_0,count
localidad,Unnamed: 1_level_1
Madrid,8793
Alcala de Henares,212
San Sebastian de los Reyes,99
San Martin de Valdeiglesias,91
Torrejon de Ardoz,58
Cercedilla,49
Guadarrama,46
Alpedrete,46
Chinchon,45
Rascafria,42



Archivo exportado: data/alojamientos_turisticos_corregido.csv (encoding=latin-1, sep=';')



In [22]:
df_crimen['City'] = df_crimen['City'].replace(['S', '', 'SAN FRANCISCO', 'San Francisco', 'san francisco'], 'San Francisco', regex=True)

In [24]:
df_crimen = df_crimen.drop('CallDateTime', axis=1)

In [None]:
#formatea la columna Offense Date a YYY-MM-DD
df_crimen['OffenseDate'] = pd.to_datetime(df_crimen['OffenseDate']).dt.date

In [35]:
#reemplazar en el campo agencyid 1 por CA
df_crimen['AgencyId'] = df_crimen['AgencyId'].replace('1', 'CA')
print(df_crimen.head())

df_crimen_final = df_crimen

     CrimeId OriginalCrimeTypeName OffenseDate CallTime Disposition  \
0  160903280     Assault / Battery  2016-03-30    18:42         REP   
1  160912272    Homeless Complaint  2016-03-31    15:31         GOA   
2  160912590             Susp Info  2016-03-31    16:49         GOA   
3  160912801                Report  2016-03-31    17:38         GOA   
4  160912811                   594  2016-03-31    17:42         REP   

                   Address                       City State AgencyId  \
0  100 Block Of Chilton Av  San Franciscoan Francisco    CA       CA   
1  2300 Block Of Market St  San Franciscoan Francisco    CA       CA   
2  2300 Block Of Market St  San Franciscoan Francisco    CA       CA   
3      500 Block Of 7th St  San Franciscoan Francisco    CA       CA   
4       Beale St/bryant St  San Franciscoan Francisco    CA       CA   

       AddressType  
0  Premise Address  
1  Premise Address  
2  Premise Address  
3  Premise Address  
4     Intersection  


In [36]:
profile = ProfileReport(df_crimen_final, title ="Perfilado crimen")
profile.to_notebook_iframe()
profile.to_file("crimen_corregido.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

100%|██████████| 10/10 [00:00<00:00, 15.55it/s]


Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

In [37]:

# Exportar a CSV en la carpeta data
df_crimen_final.to_csv('data/crimen_corregido.csv', index=False, encoding='utf-8', sep=';')

print("Archivo crimen_corregido.csv guardado en la carpeta data.")
print(df_crimen_final.head())

Archivo crimen_corregido.csv guardado en la carpeta data.
     CrimeId OriginalCrimeTypeName OffenseDate CallTime Disposition  \
0  160903280     Assault / Battery  2016-03-30    18:42         REP   
1  160912272    Homeless Complaint  2016-03-31    15:31         GOA   
2  160912590             Susp Info  2016-03-31    16:49         GOA   
3  160912801                Report  2016-03-31    17:38         GOA   
4  160912811                   594  2016-03-31    17:42         REP   

                   Address                       City State AgencyId  \
0  100 Block Of Chilton Av  San Franciscoan Francisco    CA       CA   
1  2300 Block Of Market St  San Franciscoan Francisco    CA       CA   
2  2300 Block Of Market St  San Franciscoan Francisco    CA       CA   
3      500 Block Of 7th St  San Franciscoan Francisco    CA       CA   
4       Beale St/bryant St  San Franciscoan Francisco    CA       CA   

       AddressType  
0  Premise Address  
1  Premise Address  
2  Premise Address 

In [4]:
import sqlite3

In [5]:


conn = sqlite3.connect('my_database.db')
cursor = conn.cursor()

In [6]:
print(df.head())

   Rank                                         book title  book price  \
0     1                       Iron Flame (The Empyrean, 2)       18.42   
1     2                                    The Woman in Me       20.93   
2     3                                  My Name Is Barbra       31.50   
3     4  Friends, Lovers, and the Big Terrible Thing: A...       23.99   
4     5                              How to Catch a Turkey        5.65   

   rating            author  year of publication               genre  \
0     4.1    Rebecca Yarros                 2023     Fantasy Romance   
1     4.5    Britney Spears                 2023              Memoir   
2     4.5  Barbra Streisand                 2023       Autobiography   
3     4.4     Matthew Perry                 2023              Memoir   
4     4.8      Adam Wallace                 2018  Childrens, Fiction   

                                                 url  
0  amazon.com/Iron-Flame-Empyrean-Rebecca-Yarros/...  
1  amazon.co

In [7]:
cursor.execute('''
create table if not exists books (
    Rank real,
    book_title text,
    book_price real,
    rating real,
    author text,
    year_of_publication real,
    genre text,
    url text
)
''')
conn.commit()

In [8]:

with sqlite3.connect('my_database.db') as conn:
    df.to_sql('books', conn, if_exists='replace', index=False)

    print("Data inserted successfully!")


Data inserted successfully!


In [10]:
with sqlite3.connect('my_database.db') as conn:
    query = "SELECT * FROM books LIMIT 100"  
    result = pd.read_sql_query(query, conn)
    print(result)

    Rank                                         book title  book price  \
0      1                       Iron Flame (The Empyrean, 2)       18.42   
1      2                                    The Woman in Me       20.93   
2      3                                  My Name Is Barbra       31.50   
3      4  Friends, Lovers, and the Big Terrible Thing: A...       23.99   
4      5                              How to Catch a Turkey        5.65   
..   ...                                                ...         ...   
95    96  First Little Readers Parent Pack: Guided Readi...       11.40   
96    97                                            Hatchet        5.14   
97    98  The Wager: A Tale of Shipwreck, Mutiny and Murder       15.30   
98    99  I'm Dead, Now What?: Important Information Abo...       12.99   
99   100                                   The Wonky Donkey        5.28   

    rating              author  year of publication  \
0      4.1      Rebecca Yarros              

In [11]:
with sqlite3.connect('my_database.db') as conn:
    query = "SELECT * FROM books"
    df2 = pd.read_sql_query(query,conn)
    df2.to_csv('resultado.csv', index=False)