# *Trabajo pŕactico organización de datos*

## 1.  Intoducción

Este trabajo consiste en realizar un análisis profundo sobre un determinado set de datos para de esta manera afianzar los contenídos vistos durante el curso. 
El trabajo se dividirá en diferentes secciones para facilitar su lectura y mantener un orden a la hora de sacar conclusiones.

## 2. Importación de librerías

En esta sección se importaran las librerías cuyas herramientas utilizaremos en el trancurso de todo el trabajo.

In [6]:
# importacion general de librerias y de visualizacion (matplotlib y seaborn)
import pandas as pd
import numpy as np
#import matplotlib.pyplot as plt
#import seaborn as sns

#%matplotlib inline

#plt.style.use('default') # haciendo los graficos un poco mas bonitos en matplotlib
#plt.rcParams['figure.figsize'] = (20, 10)

#sns.set(style="whitegrid") # seteando tipo de grid en seaborn

pd.options.display.float_format = '{:20,.2f}'.format # suprimimos la notacion cientifica en los outputs

import warnings
warnings.filterwarnings('ignore')

## 3. Lectura de datos y primeras impresiones

### 3.1 Lectura de los datos

Se dispone de un archivo csv que nos brinda información sobre propiedades en venta en el país de Mexico. Cada linea del archivo nos da información sobre una de las propiedades. Se realiza la lectura de los datos y se muestra una vista rápida para poder familiarizarnos con la información incluída en el archivo. Se tratará a los datos como un Dataframe.

In [7]:
df = pd.read_csv('train.csv')

In [8]:
df.head()

Unnamed: 0,id,titulo,descripcion,tipodepropiedad,direccion,ciudad,provincia,antiguedad,habitaciones,garages,...,idzona,lat,lng,fecha,gimnasio,usosmultiples,piscina,escuelascercanas,centroscomercialescercanos,precio
0,254099,depto. tipo a-402,"depto. interior de 80.15m2, consta de sala com...",Apartamento,Avenida Division del Norte 2005,Benito Juárez,Distrito Federal,,2.0,1.0,...,23533.0,,,2015-08-23 00:00:00,0.0,0.0,0.0,0.0,0.0,2273000.0
1,53461,condominio horizontal en venta,"<p>entre sonora y guerrero, atr&aacute;s del h...",Casa en condominio,AV. MEXICO,La Magdalena Contreras,Distrito Federal,10.0,3.0,2.0,...,24514.0,19.31,-99.23,2013-06-28 00:00:00,0.0,0.0,0.0,1.0,1.0,3600000.0
2,247984,casa en venta urbi 3 recamaras tonala,descripcion \nla mejor ubicacion residencial e...,Casa,Urbi Tonala,Tonalá,Jalisco,5.0,3.0,2.0,...,48551.0,,,2015-10-17 00:00:00,0.0,0.0,0.0,0.0,0.0,1200000.0
3,209067,casa sola en toluca zinacantepec con credito i...,casa en privada con caseta de vigilancia casas...,Casa,IGNACIO MANUEL ALTAMIRANO 128,Zinacantepec,Edo. de México,1.0,2.0,1.0,...,53666.0,19.3,-99.69,2012-03-09 00:00:00,0.0,0.0,0.0,1.0,1.0,650000.0
4,185997,paseos del sol,bonito departamento en excelentes condiciones ...,Apartamento,PASEOS DEL SOL,Zapopan,Jalisco,10.0,2.0,1.0,...,47835.0,,,2016-06-07 00:00:00,0.0,0.0,0.0,0.0,0.0,1150000.0


### 3.2 Dimensiones del Dataframe

In [9]:
dimensiones= df.shape
print("Cantidad de filas:", dimensiones[0])
print("Cantidad de columnas:", dimensiones[1])
print("Tamaño del Dataframe:", df.size)

('Cantidad de filas:', 240000)
('Cantidad de columnas:', 23)
('Tama\xc3\xb1o del Dataframe:', 5520000)


### 3.3 Caracterísitcas principales del Dataframe

Se incluye una lista de todas las columnas con sus tipos de datos y el número de valores no nulos en cada columna. A su vez conocemos tambien los tipos de datos con los que estaremos trabjando.

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240000 entries, 0 to 239999
Data columns (total 23 columns):
id                            240000 non-null int64
titulo                        234613 non-null object
descripcion                   238381 non-null object
tipodepropiedad               239954 non-null object
direccion                     186928 non-null object
ciudad                        239628 non-null object
provincia                     239845 non-null object
antiguedad                    196445 non-null float64
habitaciones                  217529 non-null float64
garages                       202235 non-null float64
banos                         213779 non-null float64
metroscubiertos               222600 non-null float64
metrostotales                 188533 non-null float64
idzona                        211379 non-null float64
lat                           116512 non-null float64
lng                           116512 non-null float64
fecha                         240

## 3.4 Datos faltantes en el Dataframe


No todo registro del Dataframe posee información en todos sus campos. Nos interesa saber cuántos de esos registros tienen información faltante


###  3.4.1 Datos faltantes por columna


In [87]:
serie_nulos=df.isnull().any()
lista_nulos=list(df.columns)
df_muestra_de_info=pd.DataFrame(index=lista_nulos)
lista_aux=[]
for indice in range(0,len(lista_nulos)):
        if serie_nulos.iloc[indice]== True:
            lista_aux.append("Si")
        else:
            lista_aux.append("No")
df_muestra_de_info['Faltan datos']=lista_aux 

cantidad_de_nans=[]

for campo in lista_nulos:
    cantidad_de_nans.append(len(obtener_filas_con_Nan(df,campo)))

df_muestra_de_info['Cantidad']=cantidad_de_nans
df_muestra_de_info.head(23)

Unnamed: 0,Faltan datos,Cantidad
id,No,0
titulo,Si,5387
descripcion,Si,1619
tipodepropiedad,Si,46
direccion,Si,53072
ciudad,Si,372
provincia,Si,155
antiguedad,Si,43555
habitaciones,Si,22471
garages,Si,37765


### 3.4.2 Cantidad de datos faltantes


In [29]:
cantidad_de_nulos=df.isnull().sum().sum()
print("Cantidad de Nans en el DataFrame: "+ str(cantidad_de_nulos))

Cantidad de Nans en el DataFrame: 535127


## 4. Análisis de Datos

En las secciones anteriores se realizó la carga de los datos y se obtubo información general del Dataframe de manera tal de familiarizarnos con la información con la que se estará trabajando durante el trabajo práctico. A partir de ahora se comenzará con el análisis de dichos datos donde iremos explorando el Dataframe para obtener resultados que nos permitan sacar conclusiones sobre la venta de propiedades en México.

### 4.1 Cantidad de propiedades:

Es interesante conocer la cantidad de propiedades de la que disponemos. Como cada fila del Dataframe se corresponde con una propiedad, la cantidad de propiedades se corresponde con la cantidad de filas del dataframe:


In [11]:
print("Cantidad de propiedades:", dimensiones[0])

('Cantidad de propiedades:', 240000)


### 4.2 Tipo de propiedades:

Las propiedades en venta pueden ser de diferentes tipos. A continuación se muestran cuales son los tipo de propiedadas con los que estaremos trabajando como tambien la cantidad de propiedades en venta de cada uno de ellos.

In [12]:
df['tipodepropiedad'].value_counts()

Casa                             141717
Apartamento                       57341
Casa en condominio                19297
Terreno                            9945
Local Comercial                    3055
Oficina comercial                  1741
Bodega comercial                   1406
Edificio                           1396
Terreno comercial                  1326
Casa uso de suelo                   708
Quinta Vacacional                   395
Duplex                              343
Villa                               340
Inmuebles productivos urbanos       200
Rancho                              170
Local en centro comercial           165
Departamento Compartido             141
Otros                               134
Nave industrial                      76
Terreno industrial                   31
Huerta                               20
Lote                                  5
Garage                                1
Hospedaje                             1
Name: tipodepropiedad, dtype: int64

In [13]:
print(f"Total tipos de propiedad: {df.tipodepropiedad.nunique()}")
df.tipodepropiedad.value_counts().plot(kind='bar', figsize=(15, 5), rot=70, 
                                       title="Cantidad de propiedades por tipo de propiedad");
#roba3 del tutorial, no cuenta

SyntaxError: invalid syntax (<ipython-input-13-758edc458772>, line 1)

## 4.3 Ubicación de las propiedades

### 4.3.1 Cantidad de propiedades por provincia

Vimos que el set de datos se corresponde a propiedades en venta distribuídas en el país de México. Este país divide en provincias. Veamos cuantas propiedades hay por cada provincia:

In [None]:
df.provincia.value_counts()

In [None]:
print(f"Total de provincias: {df.provincia.nunique()}")
df.provincia.value_counts().plot(kind='bar', figsize=(15, 5), rot=70, title="Propiedades por provincia");
#robado parte 2

### 4.3.2 Cantidad de propiedades por ciudad

Las provincias se dividen en ciudades. Veamos para cada provincia cuantas propiedades en venta hay en cada ciudad.

In [None]:
#provincias = df["provincia"].dropna().unique()
#for provincia in provincias:
#    print( "\nPROVINCIA: " + str(provincia))
#    datosfiltrados= df.loc[df.provincia == provincia, :]
#    print(datosfiltrados["iremosciudad"].value_counts())
#    print("TOTAL: " + str(datosfiltrados.shape[0]))
    
#o tambien podriamos hacerlo asi
grouped = df.groupby(['provincia','ciudad']).agg({'ciudad':'size'})
grouped.columns = ['Propiedades por ciudad']

grouped

### 4.3.3 ¿Cuáles son las provincias con mayor cantidad de algún tipo de propiedad?

Es interesante conocer cuales son las provincias que tiene mayor cantidad de propiedades de algún tipo en específico en venta. A modo de ejemplo veamos el top 3 de las provincias con mayor cantidad de casas en venta.

In [None]:
print(" Las 3 provincias con mayor cantidad de casas en venta son: ")
df.loc[df.tipodepropiedad == "Casa", : ]["provincia"].value_counts().head(3)

Otro ejemplo podría ser conocer cual es la provincia con mayor cantidad de huertas en venta.

In [None]:
print(" La provincia con mayor cantidad de Huertas en venta es:")
df.loc[df.tipodepropiedad == "Huerta", :]["provincia"].value_counts().head(1)

Supongamos ahora que queremos generalizarlo y calculemos para cada tipo de propiedad cuál es la provincia que tiene mayor cantidad de propiedades en venta de cada tipo.

In [None]:
tipos = df["tipodepropiedad"].dropna().unique()
for tipo in tipos:
    print ("\nTIPO: " + tipo)
    print(df.loc[df.tipodepropiedad == tipo, :]["provincia"].value_counts().head(1))
    
#dfaux = df.groupby(['tipodepropiedad','provincia'])\
#    .agg({ 'tipodepropiedad':'size'}) #necesito averiguar como quedarme con 
                                       #el mayor de cada zona y ya está
#dfaux

### 4.3.4 Antiguedad de propiedades segun provincia

In [None]:
#provincias= df['provincia'].dropna().unique()
#dfaux= df.groupby(['provincia'])
#for provincia in provincias:
#    print ("\nProvincia: " + str(provincia))
#    print( "promedio de antiguedad:" + str(dfaux.get_group(provincia)['antiguedad'].mean()) + " años")

    
antiguedad_por_zona = df.groupby('provincia').agg({'antiguedad': ['mean', 'size']})
antiguedad_por_zona.columns = ['antiguedad_mean','antiguedad_size']
antiguedad_por_zona.sort_values('antiguedad_mean', ascending=False)
#hacer grafico y luego otro grafico que muestre la relacion entre la antiguedad/precio

### 4.3.5 Metros por provincia

Ahora analizaremos cuales son las provincias con las propiedas con mas metros en total (soy malisimo
para las descripcionas...mejorar)

In [None]:
tamaño_por_zona = df.groupby('provincia').agg({'metrostotales': ['sum', 'mean', 'size']})
tamaño_por_zona.columns = ['metros_sum', 'metros_mean','size']
tamaño_por_zona.sort_values('metros_mean', ascending=False)

#hacer grafico y luego otro grafico que muestre la relacion entre el tamaño y el precio

### 4.5 Precio de propiedades según provincia

Ahora vamos a analizar los precios. Empecemos viendo, en promedio, cual es la provincia más cara

In [None]:
precio_por_zona = df.groupby('provincia').agg({'precio': ['mean', 'sum','size']})
precio_por_zona.columns = ['precio_mean','precio_sum','propiedades_size']#no se si es util la sumatoria
precio_por_zona.sort_values('precio_mean', ascending=False)

#esto de todas, podriamos hacer otro para cada propiedad, casas por ejemplo

In [None]:
print(f"Promedio de precio por provincias: {df.provincia.nunique()}")
df.groupby('provincia').agg({'precio': 'mean'})\
    .sort_values('precio', ascending=False)\
    .plot(kind='bar', figsize=(15, 5), rot=70, title="Precio promedio por provincia");
#grafico robado del tutorial, no cuenta 

Veamos las 5 propiedades más caras y con más metros 

In [None]:
df.nlargest(5, ['precio','metrostotales'])
#Curiosamente las 5 más caras pertenecen al distrito federal, con razón es la más cara


In [None]:
***************************HASTA ACA LLEGUÉ****************************************

In [None]:
#ciudades = df['ciudad']
#ciudades.value_counts()

In [None]:
df.isnull().sum()
df.dropna(subset=['titulo','descripcion','tipodepropiedad','direccion','ciudad','provincia','antiguedad','habitaciones','garages','banos','metroscubiertos','metrostotales','idzona','lat','lng'])\
.isnull().sum() #elimino los nulos, habiamos discutido si lo hacemos o no

In [None]:
df.memory_usage() #deriamos castear datos para que ocupen menos espacio

In [None]:
#df.astype({'gimnasio': 'category','usosmultiples': 'category','piscina': 'category','escuelascercanas': 'int32','centroscomercialescercanos': 'int32'}).dtypes


In [None]:
#df.dtypes

In [None]:
df.info()
#deberiamos castear datos

In [None]:
(df.memory_usage()/(1024*1024)).sum()

In [None]:
df.describe()

In [None]:
#df.plot.bar('habitaciones','precio') congela la computadora


#Hacer grafico


#print(f"Total tipos de propiedad: {df.tipodepropiedad.nunique()}")
#df.tipodepropiedad.value_counts().plot(kind='bar', figsize=(15, 5), rot=70,mtitle="Cantidad de propiedades por tipo de propiedad");

In [None]:
df.groupby('precio').agg(np.sum)
#el primero elemento tiene 1400 años de antiguedad, raro

In [None]:
df3 = df.loc[df.antiguedad > 100.00]
#40233830
df3.head() #arriba aparece pero aca no, doble raro

In [None]:
# agrupando usando multiples columnas
grouped = df.groupby(['provincia','ciudad'])\
    .agg({'habitaciones':['mean','sum'],'precio':'mean', 'antiguedad':'mean'}) #poner parametros mas
                                                            #interesantes que habitaciones y antiguedad
grouped

In [None]:
df2 = df.loc[df.tipodepropiedad == 'Apartamento']
df2.info()

In [None]:
df2.shape

In [None]:
#fecha, fecha de que? de que se puso a la venta? de que se compró? o que? 

In [None]:
#relacion entre latitud y longitud con el precio

In [None]:
#comparacion entre el precio de las casas y los departamentos

In [None]:
#

In [None]:
# analicemos distribución de avisos por tipo de trabajo
workday_announcements = sns.countplot(x='tipodepropiedad', data=df, order=df['tipodepropiedad'].value_counts().index, orient='v')
workday_announcements.set_xticklabels(workday_announcements.get_xticklabels(),rotation=45)
workday_announcements.set_xlabel("Tipo de propiedades", fontsize=20)
workday_announcements.set_ylabel("Cantidad de Propiedades", fontsize=20)
workday_announcements.set_title("Cantidad de propiedades segun su clase", fontsize=20)

#Es un buen comienzo(?)

In [14]:
# analicemos distribución de avisos por seniority

#seniority_types = sns.countplot(x='ciudad', data=df, order=df['ciudad'].value_counts().index, orient='v')
#seniority_types.set_xticklabels(seniority_types.get_xticklabels(),rotation=45)
#seniority_types.set_xlabel("Ciudades", fontsize=20)
#seniority_types.set_ylabel("Cantidad de propiedades por ciudad", fontsize=20)
#seniority_types.set_title("Propiedades por ciudad", fontsize=20)

#Horrible

In [15]:
# Correlacion entre precio y metros cubiertos: descripción gráfica
column = 'metroscubiertos'

# Scatter plot
df_sample = df.sample(frac=0.05).copy().dropna().sort_values(column)
df_sample.plot.scatter(x=column, y='precio', figsize=(15, 5), title="Correlación entre metros cubiertos y precio")
plt.ticklabel_format(style = 'plain')

# Best-fit lineal
x = df_sample[column]
y = df_sample['precio']
f = np.poly1d(np.polyfit(x, y, deg=1))  
plt.plot(x.unique(), f(x.unique()), c='r', linewidth=4);


NameError: name 'plt' is not defined

Error in callback <function post_execute at 0x7f420d9bc398> (for post_execute):


ValueError: matplotlib display text must have all code points < 128 or use Unicode strings

In [52]:
# comparacion de dos (o mas) campos con elementos faltantes
#funciones a usar:


#funcion para conseguir los numeros de las filas que tienen el campo especificado en la columna con un NaN
#devuelve una lista con las posiciones
#para que funcione bien, tiene que usar la clave por default del dataFrame. si se usa una clave compuesta
#o una clave que no sea enteros crecientes falla

def obtener_filas_con_Nan(df, nombreColumna):
    serie=df.loc[:,nombreColumna]
    serie=serie.isnull()
    lista_posiciones_nulas=[]
    contador=0
    for booleano in serie:
        if booleano is True:
            lista_posiciones_nulas.append(contador)
        contador+=1
    return lista_posiciones_nulas


def concatenarListasSinDuplicados(lista1,lista2):
    dicc={}
    for item in lista1:
        dicc[item]=1
    for item in lista2:
        dicc[item]=1
    return dicc.keys()

In [82]:
#cantidad de propiedades con piscina segun la provincia
#ya se sabe que todas las propiedades tienen pileta
filas_sin_provincia=obtener_filas_con_Nan(df,'provincia')
serie_piletas=df.drop(filas_sin_provincia)


(240000, 23)