# Mergeo de CSV Inicial y CSV creado a través de Selenium

In [1]:
import pandas as pd
import numpy as np
import sidetable

import seaborn as sns
import matplotlib.pyplot as plt

Nos descargamos el CSV que vamos a utilizar de Kaggle.

Los datos son sobre casas en los Estados de Washington, California y Oregón, y divididos por ciudades. Incluye solo algunas de las ciudades más importantes de cada estado.
Los datos incluyen el precio, dirección, número de cuartos, baños, el área de la casa, etc.

Link al kaggle: https://www.kaggle.com/ialjadani/houses-prices-in-selected-area-in-usa

In [2]:
df = pd.read_csv ("../Data/02. CSV_inicial_houses_USA.csv")
df.sort_values(by = ["City"]).head(3)

Unnamed: 0.1,Unnamed: 0,Price,Currency,Brokered_by,AD_Situation,Rooms,Bath,Building space,Measruing unit,Address,City,State
1182,1182,899000,USD,Redfin Corporation,New - 18 hours ago,4,2.5,1860,sqft,"301 S Cordova St, Alhambra, CA 91801",Alhambra,CA 91801
1234,1234,510000,USD,Keller Williams Signature,New - 20 hours ago,2,2.0,1123,sqft,"777 E Valley Blvd Apt 56, Alhambra, CA 91801",Alhambra,CA 91801
1302,1302,1188000,USD,COMPASS,New,3,2.5,1890,sqft,"424 N Cordova St, Alhambra, CA 91801",Alhambra,CA 91801
1298,1298,799000,USD,Keller Williams Realty,New,3,2.0,1320,sqft,"228 Hampden Ter, Alhambra, CA 91801",Alhambra,CA 91801
1286,1286,760000,USD,Re/Max Premier Prop Arcadia,New,2,2.0,1753,sqft,"225 S Electric Ave, Alhambra, CA 91801",Alhambra,CA 91801


In [3]:
df.shape

(1718, 12)

In [9]:
set(df["City"])

{'Alhambra',
 'Aliso Viejo',
 'Altadena',
 'Anaheim',
 'Anaheim Hills',
 'Anderson Island',
 'Ashford',
 'Auburn',
 'Azusa',
 'Battle Ground',
 'Bell',
 'Bellevue',
 'Bellflower',
 'Black Diamond',
 'Bonney Lake',
 'Bothell',
 'Brea',
 'Buckley',
 'Bucoda',
 'Buena Park',
 'Burbank',
 'Burien',
 'Camas',
 'Canoga Park',
 'Canyon Country',
 'Castaic',
 'Centralia',
 'Cerritos',
 'Chatsworth',
 'Clyde Hill',
 'Compton',
 'Corbett',
 'Corona Del Mar',
 'Costa Mesa',
 'Coto de Caza',
 'Covina',
 'Covington',
 'Culver City',
 'Cypress',
 'Dana Point',
 'Des Moines',
 'Diamond Bar',
 'Downey',
 'DuPont',
 'Duvall',
 'East Los Angeles',
 'East Olympia',
 'Eatonville',
 'Edgewood',
 'El Monte',
 'Enumclaw',
 'Fairview',
 'Fall City',
 'Federal Way',
 'Fife',
 'Fircrest',
 'Fountain Valley',
 'Fullerton',
 'Garden Grove',
 'Gardena',
 'Gig Harbor',
 'Glendale',
 'Glendora',
 'Graham',
 'Gresham',
 'Hacienda Heights',
 'Harbor City',
 'Hawthorne',
 'Hermosa Beach',
 'Hollywood',
 'Huntington Bea

A continuación nos descargamos un CSV que hemos creado a partir de Selenium "SeleniumProMo"

In [None]:
df_calidad_de_vida_eeuu_ciudades = pd.read_csv ("Data/01. Resultado_Selenium_datos_ciudades_EEUU.csv")
df_calidad_de_vida_eeuu_ciudades.head()

A continuaición vamos a mergear ambos CSV:

In [None]:
mergeado_inner = df.merge(df_calidad_de_vida_eeuu_ciudades, on= "City")

Exportamos el DataFrame mergeado a un CSV

In [None]:
mergeado_inner.to_csv("03. Datos_mergeados.csv")

# Análisis Exploratorio

In [None]:
import pandas as pd
import numpy as np
import sidetable

import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
mergeado_inner.head(2)

# Exploración inicial de nuestros datos

### Tipado de Datos

In [None]:
mergeado_inner.columns

!!!! OJO !!!! Vemos como los nombres no son homogéneos y eso nos puede dificultar nuestro trabajo. Habrá que ponerkos en minúscula, cambiar espacios por "_", y eliminar las columnas que no nos aporten valor

### Tamaño

In [None]:
mergeado_inner.shape

### Tipos de datos

¿Y el tipo de datos de cada una de las columnas?

In [None]:
mergeado_inner.dtypes

!!!! OJO !!!! No tiene mucho sentido que el número de 'baños' sea un "float", ni que los números de "Índice_poder_adqui', 'Índice_seguridad', 'Índice_sanidad', 'Índice_clima', 'Índice_costo_vida', 'Relación_precio_ingresos_propiedades', 'Índice_costo_desplazamiento', 'Índice_contaminación', 'Índice_calidad_vida' sean un "string"... Tendremos que hacer algo con ellas más adelante.



### Info

In [None]:
mergeado_inner.info()

No tenemos valores nulos en nuestrio DataFrame

### Principales estadísticos

In [None]:
mergeado_inner.describe().T

In [None]:
mergeado_inner.describe(include = "object").T

### Duplicados

¿Tenemos duplicados en nuestro dataframe? -> Parece que no tenemos....

In [None]:
mergeado_inner.duplicated().sum()

Pero, qué está pasando? Vamos a eliminar dos columnas con valores únicos "Unnamed: 0_x", "Unnamed: 0_y", y vamos a comprobar si realmente seguimos sin tener duplicados

In [None]:
eliminar_columns = ['Unnamed: 0_x', 'Unnamed: 0_y']

In [None]:
mergeado_inner_1 = mergeado_inner.drop(eliminar_columns, axis = 1)
mergeado_inner_1.head(2)

In [None]:
mergeado_inner_1.duplicated().sum()

!!!! OJO!!!!  vemos como tenemos dos valores que están duplicados en nuestro dataframe

### Sidetables

In [None]:
mergeado_inner_1.stb.freq(["AD_Situation"])

In [None]:
mergeado_inner_1.stb.freq(["Brokered_by"])

In [None]:
mergeado_inner_1.stb.freq(["City"])

In [None]:
mergeado_inner_1.stb.freq(["State"])

In [None]:
mergeado_inner_1[mergeado_inner_1.duplicated(keep=False)]

### Exportación de CSV mergeado

Exportamos el DataFrame mergeado, y con una limpieza minimísima, a un CSV:

In [None]:
mergeado_inner_1.to_csv("03. Datos_mergeados_.csv")