<a href="https://colab.research.google.com/github/JLuceroVasquez/pandas-conociendo-la-biblioteca/blob/main/inmuebles_cdmx.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Conociendo la biblioteca Pandas
Durante el curso se enseño a usar la biblioteca Pandas para la limpieza, manipulación, análisis exploratorio y visualización de datos. También se exploró las características de una base de datos, y enseño como lidiar con valores nulos, eliminar registros, crear columnas (numéricas y categóricas) y aplicar filtros. Para acceder a la documentación oficial de la biblioteca se puede hacer click [aquí](https://pandas.pydata.org/docs/).

Con fines didácticos, se aplicaron los conocimientos en un proyecto de clase. El proyecto consistió en brindar soporte a las demandas del equipo de Aprendizaje Automático y del equipo de Desarrollo de una empresa inmobiliaria de México.

La base de datos que vamos a utilizar para desarrollar el proyecto es una base de datos que contiene información sobre diferentes tipos de propiedades en Ciudad de México (CDMX), como departamentos, casas, locales comerciales, entre otros.

In [1]:
import pandas as pd

##Importando los datos
El primer paso para comenzar el proyecto es importar la base de datos y verificar algunas características generales de los datos


In [2]:
#Se asigna la dirección URL a una variable de alcance global.
url = 'https://gist.githubusercontent.com/ahcamachod/a572cfcc2527046db93101f88011b26e/raw/ffb13f45a79d31223e645611a119397dd127ee3c/alquiler.csv'

#Se cargan los datos en un dataframe de pandas, y especifica que el separador es un ";".
datos = pd.read_csv(url, sep=";")

In [None]:
'''
Con head() y tail() podemos visualizar respectivamente los primeros y los últimos 5 datos.
Si se desea visualizar una cantidad distinta se debe especificar dentro del paréntesis.
'''
datos.head()
datos.tail()

#Con sample() podemos visualizar n datos, escogidos aleatoriamente.
datos.sample(6)

Unnamed: 0,Tipo,Colonia,Habitaciones,Garages,Suites,Area,Valor,Condominio,Impuesto
22186,Conjunto Comercial/Sala,Condesa,0,10,0,1800,693000.0,176400.0,
18135,Tienda/Salón,Condesa,0,0,0,340,87500.0,700.0,4200.0
16129,Conjunto Comercial/Sala,Peralvillo,0,0,0,30,2275.0,980.0,203.0
2150,Departamento,Lomas de Chapultepec,2,1,1,110,13650.0,5635.0,
8760,Departamento,Narvarte,1,0,0,39,4900.0,1575.0,164.5
18696,Casa de Condominio,Santa Fe,5,5,3,450,49000.0,5040.0,4137.0


##Exploración de las características de los datos
* Cantidad de filas y columnas.
* Cuáles son las columnas de la base de datos.
* Explorar las diferentes columnas existentes.
* Verificar los tipos de datos.



In [7]:
#Cantidad de filas y columnas. Solo cuentan datos, omiten la columna de índices y la fila con los nombres de columnas.
datos.shape

(25121, 9)

In [14]:
#Columnas de la base de datos. Los nombres de las columnas se guardan en un objeto de Pandas tipo "pandas.core.indexes.base.Index".
columnas = datos.columns
columnas

Index(['Tipo', 'Colonia', 'Habitaciones', 'Garages', 'Suites', 'Area', 'Valor',
       'Condominio', 'Impuesto'],
      dtype='object')

In [13]:
#Tipo de datos y valores no nulos por columnas.
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25121 entries, 0 to 25120
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Tipo          25121 non-null  object 
 1   Colonia       25121 non-null  object 
 2   Habitaciones  25121 non-null  int64  
 3   Garages       25121 non-null  int64  
 4   Suites        25121 non-null  int64  
 5   Area          25121 non-null  int64  
 6   Valor         25107 non-null  float64
 7   Condominio    22495 non-null  float64
 8   Impuesto      18037 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.7+ MB


In [15]:
#Exploración de 1 columna del dataframe.
datos['Tipo'].sample(5)

Unnamed: 0,Tipo
6810,Conjunto Comercial/Sala
15488,Tienda/Salón
23460,Departamento
3506,Casa
2181,Departamento


In [16]:
#Exploración de 2 a más columnas del dataframe. Cuando son 2 o más, se debe pasar los nombres dentro de una lista.
datos[['Habitaciones', 'Valor']].sample(5)

Unnamed: 0,Habitaciones,Valor
12093,1,7000.0
4865,3,12250.0
781,6,45500.0
2924,4,28000.0
1878,2,8050.0


##Ejercicio aula 1
Para practicar los métodos aprendidos a lo largo de esta lección y aprender nuevos, realizaremos algunos análisis utilizando un archivo CSV diferente: alumnos.csv.

Importa el archivo alumnos.csv y almacena su contenido en un DataFrame de Pandas.

Visualiza las primeras 7 filas del DataFrame y las últimas 5.

Verifica la cantidad de filas y columnas en este DataFrame.

Explora las columnas del DataFrame y analiza los tipos de datos presentes en cada columna.

Extra: Calcula algunas estadísticas descriptivas básicas de los datos en el DataFrame (media, desviación estándar, etc.). Pista: busca el método "describe".

In [17]:
#Importamos el archivo csv
url_proyecto = 'https://gist.githubusercontent.com/ahcamachod/807a2c1cf6c19108b2b701ea1791ab45/raw/fb84f8b2d8917a89de26679eccdbc8f9c1d2e933/alumnos.csv'

proyecto = pd.read_csv(url_proyecto)

In [18]:
#Visualizamos las primeras 7 filas.
proyecto.head(7)

Unnamed: 0,Nombre,Edad,Nota,Aprobado
0,Alberto,20,7.5,True
1,Ana,18,,False
2,Camila,27,2.5,False
3,David,18,5.0,False
4,Brian,21,10.0,True
5,Bruna,23,,False
6,Daniela,21,7.0,True


In [19]:
#Visualizamos las últimas 5 filas.
proyecto.tail(5)

Unnamed: 0,Nombre,Edad,Nota,Aprobado
13,Miriam,25,9.0,True
14,Pablo,37,,False
15,Milena,29,7.0,True
16,Lucas,33,,False
17,Nadia,34,8.0,Verdadero


In [20]:
#Analizamos los tipos de datos de cada columna.
proyecto.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Nombre    18 non-null     object 
 1   Edad      18 non-null     int64  
 2   Nota      12 non-null     float64
 3   Aprobado  18 non-null     object 
dtypes: float64(1), int64(1), object(2)
memory usage: 708.0+ bytes


In [21]:
#Calculo de estadísticas básicas.
proyecto.describe()

Unnamed: 0,Edad,Nota
count,18.0,12.0
mean,25.5,6.841667
std,6.070662,2.264532
min,18.0,2.5
25%,21.0,5.45
50%,24.5,7.0
75%,28.75,8.25
max,37.0,10.0
