Skip to content

viviancaro/Exploracion-de-Datos

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

El objetivo de este proyecto es realizar un primer análisis exploratorio sobre un dataset, partiendo de la importación de las bibliotecas necesarias para la exploración y descripción de los datos. Para este análisis se utilizan las bibliotecas Pandas, Numpy, Seaborn y MatplotLib. Se trabaja sobre el dataset en el siguiente orden:

  • Descripción de los atributos que serán analizados.
  • Importación de las bibliotecas necesarias para la exploración.
  • Carga y lectura del dataset, ordenando las instancias por fecha de creación de las mismas.
  • Visualización del dataset y su forma, cantidad de filas y columnas presentes.
  • Se empieza a analizar la variable que brinda información sobre el tipo de propiedad, se agrupan y se cuentan los valores similares.
  • En este caso se quiere realizar un informe sobre categorías correspondientes a vivienda, por ello se filtran y descartan las que no corresponden.
  • Con un nuevo DataFrame creado a partir del filtro anterior, se visualizan gráficamente en un countplot de Seaborn las categorías de vivienda.
  • Verificación de la existencia de valores nulos o faltantes (nan) en las columnas de interés para el análisis. En caso de existencia, se eliminan o reemplazan con otro valor, según convenga.
  • Comprobación de la existencia de datos erróneos que pueden afectar el análisis, dependiendo de la cantidad se decide si se eliminan o se utiliza otra herramienta para corregirlos.
  • Análisis de categorías agrupadas en forma porcentual, por ubicación geográfica.
  • Visualización gráfica de la distribución porcentual anterior con subplots de MatplotLib.
  • Descripción de medidas estadísticas sobre el atributo precio por metro cuadrado.
  • Cálculo de cuartiles y percentiles para observar si hay presencia de valores extremos, que estén muy alejados de la distribución.
  • Ante la presencia de estos valores extremos, se descartan las instancias cuyos valores de precio por metro cuadrado se encuentren por fuera de los percentiles 10 y 90.
  • Visualización gráfica del precio por metro cuadrado por barrio con un barplot de Seaborn.
  • Se muestran cuáles son los barrios más caros y cuales los más baratos.
  • Comparación gráfica de la distribución de las propiedades, teniendo en cuenta diferentes aspectos para mejor visualización.
  • Análisis de otros datos erróneos con respecto a la ubicación geográfica.
  • Conclusiones del proyecto.

El dataset utilizado en este proyecto corresponde a una muestra de propiedades en venta, publicado en la página de Properati (www.properati.com.ar), en el cual, cada fila es una propiedad en venta.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published