<img src = "https://github.com/HarryVargas96/UdeCataluna/blob/main/logo_uc_grande.png?raw=true" alt = "Encabezado" width = "100%">  </img>

# **Taller guiado de manejo de dataframes con Pandas**

Este taller guiado tiene como objetivo hacer un acercamiento práctico del uso del paquete numpy y pandas. Lo invito a interactuar y experimentar libremente con esta herramienta de aprendizaje. En la parte superior derecha encontrará un botón que dice "Añadir a Drive", de esa manera podrá guardar y editar el contenido de este notebook.

## **1. Instalar e importar pandas y otras librerías útiles**

In [None]:
!pip install -U pandas # -U -> Upgrade (Actualizar)

Collecting pandas
  Downloading pandas-2.2.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (89 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m89.9/89.9 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
Downloading pandas-2.2.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (13.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.1/13.1 MB[0m [31m59.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pandas
  Attempting uninstall: pandas
    Found existing installation: pandas 2.2.2
    Uninstalling pandas-2.2.2:
      Successfully uninstalled pandas-2.2.2
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
google-colab 1.0.0 requires pandas==2.2.2, but you have pandas 2.2.3 which is incompatible.[0m[31m
[0mSuccessfully installed pandas-2.2.3


In [None]:
!pip install pandas==2.2.2



In [1]:
# pd y np son los alias más empleados para estas 2 librerías

import pandas as pd
import numpy as np

import matplotlib as mpl
import matplotlib.pyplot as plt

In [None]:
!python --version

print('Pandas', pd.__version__)

print('NumPy', np.__version__)
print('Matplotlib', mpl.__version__)

Python 3.11.11
Pandas 2.2.2
NumPy 2.0.2
Matplotlib 3.10.0


## **1. Los DataFrames como estructuras de datos**

Existen 2 estructuras de datos fundamentales en pandas. Toda la funcionalidad de la librería pandas depende del entendimiento de estos dos objetos.

* Series
* Dataframes

Las **Series** son arreglos unidimensionales cuyos elementos están identificados por un índice, este índice puede ser numérico o una etiqueta. La serie está conformada por dos arreglos de numpy, uno aloja los valores y otro los índices para cada valor. Las series pueden ser creadas usando la función `pd.Series`. Está función admite varios tipos de datos como argumentos.
* Listas o tuplas
* Diccionarios
* Arreglos de numpy

In [None]:
mi_lista = [1,2,3,4,5,6, "a"]

mi_serie = pd.Series(mi_lista)

print("Mi lista: ", mi_lista)
print("Mi serie: \n", mi_serie)
print(type(mi_serie))

Mi lista:  [1, 2, 3, 4, 5, 6, 'a']
Mi serie: 
 0    1
1    2
2    3
3    4
4    5
5    6
6    a
dtype: object
<class 'pandas.core.series.Series'>


In [None]:
# Extraer los valores de una serie
mi_serie.values

array([1, 2, 3, 4, 5, 6, 'a'], dtype=object)

In [None]:
# Extraer indices de una serie

mi_serie.index

RangeIndex(start=0, stop=7, step=1)

In [None]:
for i in range(1,3):
  print(i)

1
2


In [None]:
for i in mi_serie.index:
  print(i)

0
1
2
3
4
5
6


In [None]:
# otra forma de ver el objeto / rango
list(mi_serie.index)

[0, 1, 2, 3, 4, 5, 6]

In [None]:
# Qué tipo de dato tiene mi serie?

# En las series tenemos Strings/Texto sino que se llaman Objetos ('O')
print(mi_serie)
# print(type(mi_serie))

mi_serie.dtype

0    1
1    2
2    3
3    4
4    5
5    6
6    a
dtype: object


dtype('O')

In [None]:
mi_serie_numeros = pd.Series([1, 2, 3, 4.5, 5, 6])
mi_serie_numeros.dtype

dtype('float64')

In [None]:
# Número de elementos en la serie
print(mi_serie)
print('Cantidad de elementos en "mi_serie":', mi_serie.size)

0    1
1    2
2    3
3    4
4    5
5    6
6    a
dtype: object
Cantidad de elementos en "mi_serie": 7


In [None]:
mi_serie.values

array([1, 2, 3, 4, 5, 6, 'a'], dtype=object)

In [None]:
#Acceder a las series mediante indices así como con las listas y los np.arrays
#El ultimo numero no es inclusivo !!

mi_serie[:4]

Unnamed: 0,0
0,1
1,2
2,3
3,4


In [None]:
mi_serie[2]

3

In [None]:
mi_serie[1:4]

Unnamed: 0,0
1,2
2,3
3,4


In [None]:
mi_serie_numeros[1:3]

Unnamed: 0,0
1,2.0
2,3.0


In [None]:
print(mi_serie_numeros.values)
# sum(lista)
mi_serie_numeros.sum()

[1.  2.  3.  4.5 5.  6. ]


21.5

In [None]:
print(mi_serie_numeros.values)
mi_serie_numeros.mean() # mean -> promedio

[1.  2.  3.  4.5 5.  6. ]


3.5833333333333335

In [None]:
mi_serie_numeros.max() # min - max

6.0

In [None]:
round(mi_serie_numeros.std(), 2) # desviacion estandar

1.91

In [None]:
# conocer que otros metodos podemos aplicar a las series con la funcion dir
dir(mi_serie_numeros)

Los objetos **DataFrame** son el objeto principal de pandas. Y será dónde vamos a almacenar nuestros datos para analizarlos. Este objeto representa un tabla, cada fila está descrita por un índice y a su vez cada columna es un objeto Series.

Tal cómo hemos visto antes, por convención las columnas son las variables de estudio mientras que las filas son las observaciones del objeto de estudio.

Para crear DataFrames usamos la función `pd.DataFrame` que a su vez recibe varias estructuras de datos como argumentos.

In [None]:
# pandas.DataFrame -> pd.DataFrame
mi_diccionario = {
    'nombre_ciudad': ['Bogotá', 'Cali', 'Medellín','Barranquilla'],
    'poblacion' : (11_344_000, 2_228_000, 2_569_000, 1_206_000),
    'altura' : np.array([2640, 1018, 1495, 18])
}

mi_dataframe = pd.DataFrame(mi_diccionario)
mi_dataframe

Unnamed: 0,nombre_ciudad,poblacion,altura
0,Bogotá,11344000,2640
1,Cali,2228000,1018
2,Medellín,2569000,1495
3,Barranquilla,1206000,18


In [None]:
type(mi_dataframe)

In [None]:
# Valores del DataFrame
mi_dataframe.values

array([['Bogotá', 11344000, 2640],
       ['Cali', 2228000, 1018],
       ['Medellín', 2569000, 1495],
       ['Barranquilla', 1206000, 18]], dtype=object)

In [None]:
# Índices del DataFrame
mi_dataframe.index

RangeIndex(start=0, stop=4, step=1)

In [None]:
# Las columnas del DataFrame
print(mi_dataframe.columns)

Index(['nombre_ciudad', 'poblacion', 'altura'], dtype='object')


In [None]:
# Ordenar columnas para verlas
sorted(mi_dataframe.columns)

['altura', 'nombre_ciudad', 'poblacion']

In [None]:
len(mi_dataframe.columns)

3

In [None]:
#Shape
#Tupla (filas, columnas) del dataframe
mi_dataframe.shape

(4, 3)

In [None]:
filas = mi_dataframe.shape[0]
columnas = mi_dataframe.shape[1]

print(f'El dataframe tiene {filas} filas y {columnas} columnas')

El dataframe tiene 4 filas y 3 columnas


## **2. Importar datos - Ingesta de datos**

Los objetos Series y DataFrames vistos anteriormente tienen métodos para exportar los datos en diversos formatos. Para un formato en especial se recomienda consultar la [documentación](https://pandas.pydata.org/docs/user_guide/io.html#io-store-in-csv).

Pandas contiene diversas funciones que permiten leer todo tipo de archivos, desde archivos separados por comas (csv) hasta JSON (JavaScript Object Notation). Se pueden leer archivos usando diferentes formas, la recomendada para el caso de Google Colab es con el uso de un repositorio de GitHub. Otras alternativas fueron discutidas en clase también.

* Subir archivo local a Colab
* Desde Google Drive

Recuerde que para nombrar las funciones de pandas iniciamos con el alias `pd`. Por ejemplo para leer un archivo csv usamos la función
`
pd.read_csv ()
`
Puede consultar más información sobre está y otras funciones en la documentación oficial de Pandas [aquí](https://pandas.pydata.org/docs/).


In [None]:
# pd.read_(mi tipo de archivo|conexión)

In [None]:
# pd.read_csv("https://raw.githubusercontent.com/HarryVargas96/UdeCataluna/main/Housing.csv")

In [None]:
# Utilice nombres sencillos y descriptivos para nombrar sus variables
# pd.read_(formato)

housing = pd.read_csv("https://raw.githubusercontent.com/HarryVargas96/UdeCataluna/main/Housing.csv")

In [None]:
# ¿Qué tipo de objeto es housing?
type(housing)

In [None]:
ejemplo2 = pd.read_csv('sample_data/mnist_test.csv')
print(type(ejemplo2))

<class 'pandas.core.frame.DataFrame'>


## **3. Conocemos los datos**

Para este taller vamos a emplear el dataset housepricing, para mayor información consulte:

* https://www.kaggle.com/ashydv/housing-dataset

### Resumen

El dataset housing está conformado por 13 variables y 545 observaciones. En este dataset se resumen algunas características de viviendas y el precio de las viviendas.

|Variable|Descripción|Tipología|
|---|---|---|
|price| Precio (USD)|Cuantitativa continua|
|area|Área del predio (pies cuadrados)|Cuantitativa continua|
|bedrooms|Cantidad de habitaciones|Cuantitativa discreta|
|bathrooms|Cantidad de baños|Cuantitativa discreta|
|stories|Cantidad de pisos-niveles|Cuantitativa discreta|
|mainroad|Ubicación sobre una calle principal|Cualitativa binaria|
|guestroom|Cuarto para invitados|Cualitativa binaria|
|basement|Sotano|Cualitativa binaria|
|hotwaterheating|Calentador de agua|Cualitativa binaria|
|airconditioning|Aire acondicionado|Cualitativa binaria|
|parking|Cantidad de parqueaderos|Cuantitativa discreta|
|prefarea|Barrio o zona privilegiada de la ciudad|Cualitativa binaria|
|furnishing status|Estado de amoblamiento|Cualitativa ordinal|

## **6. Descripción general**

A continuación veremos algunos métodos y atributos útiles para el entendimiento de los datos.

In [None]:
# Qué forma - tamaño tiene el Data Frame
# El atributo .shape devuelve una tupla

# El primer elemento es la cantidad de filas
# El segundo elemento es la cantidad de columnas
housing.shape

(545, 13)

In [None]:
# Comenzamos a explorar los datos!

# Vista de las primeras 5 filas

# Modificar para ver las primeras 10 observaciones
# Modificar para ver las primeras 2 observaciones
housing.head(2)

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished


In [None]:
# Vista de las últimas 5 filas
# Vista de las 2 últimas filas
housing.tail()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
540,1820000,3000,2,1,1,yes,no,yes,no,no,2,no,unfurnished
541,1767150,2400,3,1,1,no,no,no,no,no,0,no,semi-furnished
542,1750000,3620,2,1,1,yes,no,no,no,no,0,no,unfurnished
543,1750000,2910,3,1,1,no,no,no,no,no,0,no,furnished
544,1750000,3850,3,1,2,yes,no,no,no,no,0,no,unfurnished


El método `DataFrame.info()` retorna un resumen interesante que incluye:
* dimensiones del DataFrame
* el nombre de las variables
* el conteo de valores no nulos
* la tipología de cada variable.





In [None]:
housing.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 545 entries, 0 to 544
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   price             545 non-null    int64 
 1   area              545 non-null    int64 
 2   bedrooms          545 non-null    int64 
 3   bathrooms         545 non-null    int64 
 4   stories           545 non-null    int64 
 5   mainroad          545 non-null    object
 6   guestroom         545 non-null    object
 7   basement          545 non-null    object
 8   hotwaterheating   545 non-null    object
 9   airconditioning   545 non-null    object
 10  parking           545 non-null    int64 
 11  prefarea          545 non-null    object
 12  furnishingstatus  545 non-null    object
dtypes: int64(6), object(7)
memory usage: 55.5+ KB


Podemos observar los nombres de las 13 variables que componen el dataset. De las cuales 6 son tipo entero y 7 son tipo object. También podemos observar que no hay valores nulos dentro del dataset.

## **7. Estadística descriptiva**

El método `DataFrame.describe()` es quizá una de las mejores maneras de conocer rápidamente los datos ya que presenta un resumen estadístico completo de cada variable. Para datos numéricos el resumen incluye:
* conteo
* promedio
* desviación estándar
* valor mínimo y máximo (rango)
* cuartiles - percentiles 25, 50 o (mediana)y 75

In [None]:
housing.describe()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,parking
count,545.0,545.0,545.0,545.0,545.0,545.0
mean,4766729.0,5150.541284,2.965138,1.286239,1.805505,0.693578
std,1870440.0,2170.141023,0.738064,0.50247,0.867492,0.861586
min,1750000.0,1650.0,1.0,1.0,1.0,0.0
25%,3430000.0,3600.0,2.0,1.0,1.0,0.0
50%,4340000.0,4600.0,3.0,1.0,2.0,0.0
75%,5740000.0,6360.0,3.0,2.0,2.0,1.0
max,13300000.0,16200.0,6.0,4.0,4.0,3.0


El método `DataFrame.describe()` también permite hacer un resumen para variables categóricas. El resumen incluye:
* conteo
* cantidad de valores únicos
* etiqueta con mayor frecuencia - moda
* frecuencia de la moda

In [None]:
housing.describe(include='object')

Unnamed: 0,mainroad,guestroom,basement,hotwaterheating,airconditioning,prefarea,furnishingstatus
count,545,545,545,545,545,545,545
unique,2,2,2,2,2,2,3
top,yes,no,no,no,no,no,semi-furnished
freq,468,448,354,520,373,417,227


In [None]:
round(468 / 545,2)

0.86

Veamos ahora como podemos calcular algunos descriptores únicamente para la variable precio. Podemos filtrar una variable de un dataset usando esta estructura `df['Nombre de la variable']` más adelante vamos a desarrollar funciones avanzadas empleando esta misma estructura.



In [None]:
housing.head(2)

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished


In [None]:
#Elegir una sola columna o serie
housing['price'].head() #['price']

Unnamed: 0,price
0,13300000
1,12250000
2,12250000
3,12215000
4,11410000


In [None]:
type(housing['price'])

In [None]:
# Retorna el conteo de todos los valores no nulos

print('Conteo :', housing['price'].count())

# Retorna la suma de la serie

print('El precio de todas las casas suma: ', housing['price'].sum())

# Retorna el mínimo de la serie

print('El valor mínimo es : ', housing['price'].min() )

# Retorna el máximo de la serie

print('El valor máximo es : ', housing['price'].max() )

# Retorna la media de una serie # Promedio

print('La media del precio es: ',housing['price'].mean()) # np.mean()

# Retorna la mediana de una serie

print('La mediana del precio es: ',housing['price'].median())

# Retorna los cuantiles listados de la serie o dataframe

print('\nPercentil 50 y 99 del precio\n', housing['price'].quantile([0.25, 0.5, 0.75]))

# Retorna la varianza de una serie

print('\nLa desviación estándar del precio: ',housing['price'].std())

Conteo : 545
El precio de todas las casas suma:  2597867440
El valor mínimo es :  1750000
El valor máximo es :  13300000
La media del precio es:  4766729.247706422
La mediana del precio es:  4340000.0

Percentil 50 y 99 del precio
 0.25    3430000.0
0.50    4340000.0
0.75    5740000.0
Name: price, dtype: float64

La desviación estándar del precio:  1870439.615657394


In [None]:
#Ejemplo
precio_maximo = housing['price'].max()
print(precio_maximo)

13300000


In [None]:
housing.head(2)

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished


In [None]:
# Note que si usa cualquiera de los métodos anteriores sobre el dataframe completo obtendrá el cálculo para todas las variables que corresponda
housing.median()

TypeError: Cannot convert [['yes' 'yes' 'yes' ... 'yes' 'no' 'yes']
 ['no' 'no' 'no' ... 'no' 'no' 'no']
 ['no' 'no' 'yes' ... 'no' 'no' 'no']
 ...
 ['yes' 'yes' 'no' ... 'no' 'no' 'no']
 ['yes' 'no' 'yes' ... 'no' 'no' 'no']
 ['furnished' 'furnished' 'semi-furnished' ... 'unfurnished' 'furnished'
  'unfurnished']] to numeric

In [None]:
# Cuáles columnas NO son un objeto (texto)
# != -> no es igual a
# housing.dtypes
# print(housing.dtypes)

housing.dtypes != 'object'

Unnamed: 0,0
price,True
area,True
bedrooms,True
bathrooms,True
stories,True
mainroad,False
guestroom,False
basement,False
hotwaterheating,False
airconditioning,False


In [None]:
housing.dtypes.head(2)

Unnamed: 0,0
price,int64
area,int64


In [None]:
housing.dtypes[housing.dtypes!='object'].index

Index(['price', 'area', 'bedrooms', 'bathrooms', 'stories', 'parking'], dtype='object')

In [None]:
housing[['price', 'area']].head(2)

Unnamed: 0,price,area
0,13300000,7420
1,12250000,8960


In [None]:
cols = housing.dtypes[housing.dtypes!='object'].index
print(cols)

housing[cols].median()

Index(['price', 'area', 'bedrooms', 'bathrooms', 'stories', 'parking'], dtype='object')


Unnamed: 0,0
price,4340000.0
area,4600.0
bedrooms,3.0
bathrooms,1.0
stories,2.0
parking,0.0


In [None]:
housing.head(2)

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished


In [None]:
print(cols)
housing_numeros = housing[cols]
housing_numeros.head(2)

Index(['price', 'area', 'bedrooms', 'bathrooms', 'stories', 'parking'], dtype='object')


Unnamed: 0,price,area,bedrooms,bathrooms,stories,parking
0,13300000,7420,4,2,3,2
1,12250000,8960,4,4,4,3


### **Ejercicios**


Cuando se trata de variables categóricas (o numéricas discretas) deseamos saber los posibles valores de esa variable y también el conteo de valores por cada categoria.

In [None]:
housing.head(2)

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished


In [None]:
# Veamos ahora cuales son esos posibles valores
housing['furnishingstatus'].unique()

array(['furnished', 'semi-furnished', 'unfurnished'], dtype=object)

In [None]:
# Veamos cuántos valores posibles toma la variable furnishingstatus
housing['furnishingstatus'].nunique()

3

In [None]:
# Hagamos un conteo  por categoría de esta variable
housing['furnishingstatus'].value_counts()

Unnamed: 0_level_0,count
furnishingstatus,Unnamed: 1_level_1
semi-furnished,227
unfurnished,178
furnished,140


In [None]:
housing.shape[0]

545

In [None]:
numero_de_filas = housing.shape[0]

housing['furnishingstatus'].value_counts() / numero_de_filas

Unnamed: 0_level_0,count
furnishingstatus,Unnamed: 1_level_1
semi-furnished,0.416514
unfurnished,0.326606
furnished,0.256881


In [None]:
# Este objeto se puede operar, por ejemplo para obtener un porcentaje

np.round(housing['furnishingstatus'].value_counts() / numero_de_filas * 100, 2)

# Note que housing.shape retorna una tupla con las dimensiones del df
# [0] retorna la primera posición de la tupla que es el número de filas

Unnamed: 0_level_0,count
furnishingstatus,Unnamed: 1_level_1
semi-furnished,41.65
unfurnished,32.66
furnished,25.69


In [None]:
# Se puede utilizar la opción de normalización
# También se puede determinar si el orden es descendente o ascendente

#housing['bedrooms'].value_counts(normalize = True, ascending = True) * 100
housing['furnishingstatus'].value_counts(normalize=True, ascending=False) * 100
# para descendente coloque ascending = False

Unnamed: 0_level_0,proportion
furnishingstatus,Unnamed: 1_level_1
semi-furnished,41.651376
unfurnished,32.66055
furnished,25.688073


In [None]:
housing['bedrooms'].describe()

Unnamed: 0,bedrooms
count,545.0
mean,2.965138
std,0.738064
min,1.0
25%,2.0
50%,3.0
75%,3.0
max,6.0


In [None]:
housing['bedrooms'].value_counts()

Unnamed: 0_level_0,count
bedrooms,Unnamed: 1_level_1
3,300
2,136
4,95
5,10
6,2
1,2


In [None]:
# Retornar un dataframe seleccionando solo una columna uso dos = [[]]
housing['bedrooms'].value_counts(normalize = True)#.reset_index()

Unnamed: 0_level_0,proportion
bedrooms,Unnamed: 1_level_1
3,0.550459
2,0.249541
4,0.174312
5,0.018349
6,0.00367
1,0.00367


## **8. Agrupación de datos**

Pandas ofrece métodos para realizar operaciones de agrupación y combinación de datos dentro de un mismo objeto. Estas operaciones consisten de 3 fases:

1.  **Separar** los datos en grupos basándose en algunos criterios.
2.  **Aplicar** una función a cada grupo. Estas funciones pueden ser de agregación, transformación o filtrado.
3.  **Combinar** los resultados de la función en una estructura de datos nueva, como un DataFrame o Serie.


Esto es posible con el método `DataFrame.groupby`, que realiza un agrupamiento respecto a los criterios definidos en su argumento.

Vamos a agrupar el DataFrame housing por el número de habitaciones.

Lo más interesante de este tipo de objetos es aplicarles diversas funciones para analizar los datos. Por ejemplo, calculemos el precio promedio de las casas dependiendo de la cantidad de habitaciones.

In [None]:
# Agrupa por número de habitaciones, filtra la variable precio, calcula la media del precio para cada grupo

housing.groupby('bedrooms')['price'].mean() / 1_000_000 # óptima

Unnamed: 0_level_0,price
bedrooms,Unnamed: 1_level_1
1,2.7125
2,3.632022
3,4.954598
4,5.729758
5,5.8198
6,4.7915


In [None]:
# Note que si no añade un filtro se calcula la media para todas las variables
housing.groupby('bedrooms').mean(numeric_only=True)

TypeError: agg function failed [how->mean,dtype->object]

Ahora hagamos un proceso de agregación más complejo, obtengamos el precio promedio y la menor área en función de la cantidad de habitaciones. Para eso vamos a usar el método `groupby.agg()`. El cual recibe un diccionario con las indicaciones de agregación.



In [None]:
# Puede hacer la agregación de tantas variables como desee
housing.groupby('bedrooms').agg({ 'price' : ['mean','min'],
                                 'area' : ['mean','min']
                                  })

#housing.groupby('bedrooms').agg({ 'price' : 'min',
#                                 'area' : 'min'
#                                })

Unnamed: 0_level_0,price,price,area,area
Unnamed: 0_level_1,mean,min,mean,min
bedrooms,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,2712500.0,2275000,3710.0,3450
2,3632022.0,1750000,4636.235294,1836
3,4954598.0,1750000,5226.62,1650
4,5729758.0,2100000,5582.063158,2145
5,5819800.0,1960000,6291.5,1905
6,4791500.0,3500000,3950.0,3600


In [None]:
# También puede aplicar dos funciones de agregación diferentes a la misma variable
housing.groupby('bedrooms').agg({ 'price': ['min','max'], 'area' : ['min','max']})

Unnamed: 0_level_0,price,price,area,area
Unnamed: 0_level_1,min,max,min,max
bedrooms,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,2275000,3150000,3450,3970
2,1750000,7070000,1836,13200
3,1750000,12250000,1650,15600
4,2100000,13300000,2145,12090
5,1960000,10150000,1905,16200
6,3500000,6083000,3600,4300


In [None]:
# Podemos nombrar nuestras agregaciones !
housing.groupby(['bedrooms']).agg(min_area=('area', 'min'),
                                  max_area=('area', 'max')
                                  )

Unnamed: 0_level_0,min_area,max_area
bedrooms,Unnamed: 1_level_1,Unnamed: 2_level_1
1,3450,3970
2,1836,13200
3,1650,15600
4,2145,12090
5,1905,16200
6,3600,4300


Por último hagamos una agrupación usando dos variables, furnishingstatus y prefarea y calculemos el precio promedio para cada categoría.

In [None]:
# Note que obtenemos 6 salidas, dado que una variable tiene 3 posibles niveles y la otra 2
housing.groupby(['bedrooms','bathrooms']).agg({'price':'mean'}).reset_index()

Unnamed: 0,bedrooms,bathrooms,price
0,1,1,2712500.0
1,2,1,3596852.0
2,2,2,4194750.0
3,3,1,4463484.0
4,3,2,6379569.0
5,3,3,6807500.0
6,4,1,4710583.0
7,4,2,6358990.0
8,4,3,7250250.0
9,4,4,12250000.0


In [None]:
housing.head(2)

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished


In [None]:
# lista = [1,2,3]
# lista[0] = 5
# print(lista)

#Creamos otra columna!
# housing['price']/1_000_000
housing['price_million'] = np.round(housing['price'] / 1_000_000,2)
housing.head()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus,price_million
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished,13.3
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished,12.25
2,12250000,9960,3,2,2,yes,no,yes,no,no,2,yes,semi-furnished,12.25
3,12215000,7500,4,2,2,yes,no,yes,no,yes,3,yes,furnished,12.22
4,11410000,7420,4,1,2,yes,yes,yes,no,yes,2,no,furnished,11.41


In [None]:
# ¿Y por qué solo ver la media si podemos hacer un resumen completo para cada categoría?

housing.groupby(['bedrooms','bathrooms'])['price_million'].mean().reset_index()

Unnamed: 0,bedrooms,bathrooms,price_million
0,1,1,2.715
1,2,1,3.596797
2,2,2,4.19375
3,3,1,4.463304
4,3,2,6.38
5,3,3,6.8075
6,4,1,4.710238
7,4,2,6.359167
8,4,3,7.25
9,4,4,12.25


## **9. Ordenamiento**

Existen 3 funciones principales que nos ayudan a organizar nuestros datos, aplica para Series o DataFrames.

In [None]:
housing['area'].sort_values(ascending=False)

In [None]:
# Cuando se aplica sobre df es obligatorio el uso del argumento by
# Se puede modificar si es ascendente o descendente con el parámetro ascending
# order by

housing.sort_values(by=['price'], ascending = False).head(2)

In [None]:
# Es posible solamente traer las primeras observaciones usando head()

housing.sort_values(by = 'area', ascending = False).head(3)

In [None]:
housing.sort_values(by=['bedrooms', 'bathrooms'], ascending = [False, True])

Hay dos variaciones que permiten recuperar los n valores más grandes o más pequeños.

In [None]:
# Las 5 casas con el precio más alto
housing.nlargest(5,'area')

In [None]:
# Las 5 casas con el precio más bajo
housing.nsmallest(5,'area')

## **10. Selección (Filtrado)**

Pandas disntigue dos tipos de índices en sus objetos. Esto es las etiquetas y la posición de los objetos. A continuación les mostraré algunas formas en las que se pueden crear subconjuntos a partir de Series o DataFrames.

Al igual que como hacíamos con una lista, podemos consultar un objeto particular de una serie usando la estructura `Series[a]` donde a es la etiqueta o posición de una determinada fila.


In [None]:
housing.head(2)

In [None]:
# El precio del índice 1

housing['price'][0:3]

In [None]:
# retorna la columna price | precio
housing[['price', 'bathrooms']].head(2)

In [None]:
# Podemos reasignar columnas completas
# Recuerde ser cuidadoso con esta funcionalidad

housing['airconditioning'] = 0
housing.head()

In [None]:
# Crear nuevas columnas, si la etiqueta ya existe lo que hace es un reemplazo
# recuerde ser cuidadoso, podría reemplazar y perder una columna existente

housing['new_bedrooms'] = housing['area'] / housing['bedrooms']

housing.head(2)

In [None]:
housing['price_per_area'] = housing['price'] / housing['area']
housing.head(2)

In [None]:
housing.nsmallest(5, 'price_per_area')

In [None]:
# Quitar columnas
housing = housing.drop(['airconditioning'], axis=1)

In [None]:
housing.head()

Podemos igual que con las Series escoger varías variables al tiempo. Solo tenemos que escribir las etiquetas dentro de una lista.

In [None]:
col = ['prefarea','price','area']

housing[col]

housing[['prefarea','price','area']]
#Como se mencionó anteriormente, se obtiene un dataframe

El objeto que retorna es un DataFrame, por lo que podemos usar todos los métodos vistos anteriormente para modificarlo.

In [None]:
housing[['prefarea','price','area']].describe()

In [None]:
type(housing[['prefarea','price','area']])

In [None]:
# Crear un subconjunto, ordenar las observaciones por el área de forma descendente y mostrar los 5 primeros

(housing[['prefarea','price','area']]           # Filtro de 3 variables
 .sort_values(by = 'area', ascending = False)   # ordenar por area de forma desc
 .head(5)
 )                                      # escogieron los primeros 5

Tenga presente que este DataFrame no está siendo guardado ya que no hemos hecho ninguna asignación.

In [None]:
# Para guardarlo debemos hacer la asignación

df = housing[['prefarea','price','area']].sort_values(by = 'area', ascending = False).head(5)
df

Así como indexamos las listas podemos indexar nuestros DataFrames, tenga presente que esa indexación escogerá las FILAS y no las columnas.

In [None]:
# [inicial, final, pasos]
# Note que la observación de índice 10 no se imprime

housing[0:10:3]

### Selección por índice  `.loc`



Este es una herramienta de acceso a contenido muy robusta e intuitiva, Se conoce como selección índice o etiqueta. Hay otra herramienta similar llamada selección por posición `.iloc` que por temas de simplicidad no veremos en este material.

La estructura se describe así:
**`DataFrame.loc[fila, columna]`** y **`Series.loc[etiqueta]`**


In [3]:
# Carguemos de nuevo nuestros datos

housing = pd.read_csv("https://raw.githubusercontent.com/HarryVargas96/UdeCataluna/main/Housing.csv")
housing.head()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished
2,12250000,9960,3,2,2,yes,no,yes,no,no,2,yes,semi-furnished
3,12215000,7500,4,2,2,yes,no,yes,no,yes,3,yes,furnished
4,11410000,7420,4,1,2,yes,yes,yes,no,yes,2,no,furnished


In [None]:
#[filas 0 2 y 4, columnas price, basement y prefarea]

housing.loc[[0,2,4], ['price','basement','prefarea']]

In [None]:
# Ahora mire esta otra forma...
# Evite estos métodos de indexado

housing['price'][[0,2,4]]

Apesar de que nos devuelve información debe evitar este tipo de métodos que pueden retornar en errores más adelante. Es mejor utilizar .loc

In [None]:
# mismo resultado, forma recomendada

housing.loc[[0,2,4],'price']

In [None]:
housing.set_index('hotwaterheating').loc[['yes'], ['price','area']].head(2)

### Selección condicional

En Pandas también podemos hacer selección de observaciones que cumplan con ciertas características.


In [None]:
housing.shape

In [None]:
# Condición: casas con más de 8000 pies cuadrados

housing['area'] > 8_000

Note que cuando ejecutamos la condición `housing['area'] > 8000` retornó una Serie con valores True y False dependiendo de sí se cumple o no la condición que hemos específicado. Pero, ¿**cómo recuperamos toda la tabla con los valores que si cumplan?**

Esta es la estructura
`DataFrame[condicion]`, en nuestro caso sería `housing[housing['area'] > 8000]`

In [None]:
housing[housing['area'] > 8000].head()

In [None]:
housing[housing['bedrooms'] == 3].head()

In [None]:
# Recuerde que como el objeto de salida es un DataFrame puede disponer de todos los métodos vistos hasta ahora

housing[housing['area'] > 8000].sort_values(by= 'price').head()

In [None]:
# Operadores lógicos
# and = &
# or = |

In [None]:
# Varias condiciones al tiempo usando operadores lógicos

condicion1 = housing['area'] > 8000
condicion2 = housing['prefarea'] == 'yes'
condicion3 = housing['basement'] == 'yes'
condicion4 = housing['furnishingstatus'] != 'unfurnished'

housing[condicion1 & condicion2 & condicion3 & condicion4].sort_values(by = 'price')

In [None]:
housing.loc[(condicion1 | condicion2), ['area','prefarea','guestroom','basement']]

Existen otros métodos que permiten hacer selección condicional como:
* query
* where
* mask

Los puede consultar en la Documentación oficial de Pandas [aquí](https://pandas.pydata.org/docs/).

### Ejercicio

1. Describa paso por paso lo que hace la siguiente sentencia.
2. Usted ha construido esta sentencia para un cliente. Haga una lista de todas las condiciones que este cliente potencial le ha dado a usted para encontrar las propiedades que se ajustan a su demanda.

In [None]:
(housing
 .loc[(housing['basement'] == 'yes') &
      (housing['prefarea'] == 'yes') &
      (housing['furnishingstatus'] == 'furnished'),
      ['area','price','bedrooms']]
 .sort_values(by = 'area', ascending = False)
 .head(3))

## **11. Guardar Nuestros Datos**

In [None]:
housing.head(2)

In [5]:
# Data set reducido
housing_four_bedrooms = housing[housing['bedrooms'] == 4][['price', 'area', 'bedrooms', 'bathrooms']]
housing_four_bedrooms.to_csv('housing_four_bedrooms.csv')

housing_four_bedrooms

Unnamed: 0,price,area,bedrooms,bathrooms
0,13300000,7420,4,2
1,12250000,8960,4,4
3,12215000,7500,4,2
4,11410000,7420,4,1
6,10150000,8580,4,3
...,...,...,...,...
479,2940000,3660,4,1
487,2870000,5400,4,1
488,2852500,5200,4,1
523,2380000,2787,4,2


In [7]:
# Data set con información de cercanía a calles principales
housing_main_road = housing[['mainroad']]
housing_main_road.to_csv('housing_main_road_data.csv')

## **12. Unir Nuestros Datos**

In [8]:
housing_four_bedrooms = pd.read_csv('housing_four_bedrooms.csv')
housing_four_bedrooms.head(2)

Unnamed: 0.1,Unnamed: 0,price,area,bedrooms,bathrooms
0,0,13300000,7420,4,2
1,1,12250000,8960,4,4


In [9]:
# Renombrar una columna
housing_four_bedrooms = housing_four_bedrooms.rename(columns={"Unnamed: 0":"housing_id"})

In [10]:
housing_main_road = pd.read_csv('housing_main_road_data.csv').rename(columns={"Unnamed: 0":"housing_id"})

In [11]:
# Nuestros DataFrames tienen formas distintas
housing_four_bedrooms.shape

(95, 5)

In [12]:
housing_main_road.shape

(545, 2)

In [13]:
housing_four_bedrooms.merge(housing_main_road, how='inner', on=['housing_id'])

Unnamed: 0,housing_id,price,area,bedrooms,bathrooms,mainroad
0,0,13300000,7420,4,2,yes
1,1,12250000,8960,4,4,yes
2,3,12215000,7500,4,2,yes
3,4,11410000,7420,4,1,yes
4,6,10150000,8580,4,3,yes
...,...,...,...,...,...,...
90,479,2940000,3660,4,1,no
91,487,2870000,5400,4,1,yes
92,488,2852500,5200,4,1,yes
93,523,2380000,2787,4,2,yes


* Diferentes tipos de joins!: ['left', 'inner', 'outer']
* También revisar pd.concat()

## **Recursos adicionales**

* Hojas trampa - https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
* Documentación de pandas -  https://pandas.pydata.org/
* Curso Free Code Camp - https://youtu.be/GPVsHOlRBBI
* Ejercicios prácticos FreeCodeCamp: https://www.freecodecamp.org/learn/data-analysis-with-python/#data-analysis-with-python-course
* LeetCode Pandas: https://leetcode.com/studyplan/introduction-to-pandas/

## **Créditos**
---

**Profesor:** Harry Vargas Rodríguez

**Corporación Universitaria de Cataluña** - *Diplomado en Big Data y Data Science*