[![Abrir en Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/adan-rs/amd/blob/main/notebooks/03_Comprender_datos.ipynb)

# Comprensión de datos
"*In God we trust. All others must bring data" (W. E. Deming).*  


## 1. Contexto del proyecto
En un proyecto real de análisis de datos, antes de limpiar, analizar o modelar, es fundamental entender qué datos tenemos, qué representa cada variable y cómo está estructurada la información.

Este notebook corresponde a la etapa de **Comprensión de datos (Data Understanding)**. El propósito no es corregir ni analizar los datos, sino comprenderlos y organizarlos para las etapas posteriores del proyecto.

## 2. Objetivos
Al finalizar este notebook, serás capaz de:
- Cargar un conjunto de datos desde una fuente externa
- Identificar qué representa cada fila y cada columna
- Revisar la estructura general del dataset
- Organizar las variables para mejorar su legibilidad
- Generar una versión base del dataset.

## 3. Carga de los datos

En Python, trabajaremos con varias bibliotecas y el primer paso será especificar cuáles utilizaremos. En este caso, emplearemos Pandas, utilizando el alias `pd`. El nombre de esta biblioteca proviene del término *panel data* en referencia a datos estructurados en filas y columnas. 

In [None]:
import pandas as pd

También existen otras bibliotecas para manejo eficiente de grandes volúmenes de datos, como *Polars*, pero para este curso usaremos principalmente Pandas por su versatilidad y compatibilidad.

Ahora vamos a utilizar la función `pd.read_excel()` para leer un archivo,  indicando como argumento la ubicación del archivo. Observa que utilizamos `pd.` para indicarle a Python que la función `read_excel()` pertenece a la biblioteca pandas. Guardaremos el resultado en un objeto llamado `df`

In [None]:
url = 'https://github.com/adan-rs/amd/raw/main/data/casas.xlsx'

df = pd.read_excel(url)

Siempre se debe indicar la ubicación del archivo, a menos que el archivo esté en el mismo directorio del Jupyter notebook. Se pueden incluir algunas instrucciones mediante otros argumentos, por ejemplo, si es un archivo de Excel indicar qué hoja (`sheet_name`) o columnas (`usecols`) utilizar.

Los formatos más comunes son *csv* (comma separated value) y excel por lo que lo más frecuente es usar *read_excel* y *read_csv*. Dependiendo del tipo de archivo, también están disponibles funciones como *read_json*, *read_sas*, *read_stata*, *read_sql* y al menos una docena más.

## 4. ¿Qué es un DataFrame?

Una forma muy común de organizar los datos es en filas y columnas. Cada fila corresponde a una observación (elemento, objeto, caso, individuo, evento), y cada columna corresponde a una variable. En Pandas, a este tipo de ordenamiento se le conoce como DataFrame y la función que utilizamos importa los datos en un DataFrame.

In [None]:
df

Observa que una característica adicional es que cuentan con un índice para las filas. En principio, este índice es secuencial empezando por cero, pero puede ser sustituido por un ID, una fecha o cualquier otra variable. Un DataFrame puede incluso tener varios índices para representar objetos multidimensionales (cubos de datos).

Para seleccionar solamente una columna utiliza corchetes o notación con punto, por ejemplo `df['columna']` o `df.columna`. La notación `df.columna` solo funciona cuando el nombre de la columna no contiene espacios ni caracteres especiales y cumple con las reglas de nombres de Python.
Si una columna tiene espacios o símbolos, se debe acceder a ella usando corchetes: `df['nombre de la columna']`.

Al seleccionar una sola columna esta se mostrará como una serie.

In [None]:
df['recamaras']

Para seleccionar múltiples columnas, agrega las columnas en una lista:

In [None]:
df[['recamaras', 'baños']]

## 5. Revisión inicial de los datos
Una vez que los datos han sido cargados en un DataFrame, el siguiente paso es revisar los datos. En esta estapa solamente observamos y si encontramos inconsistencias las documentamos para etapas posteriores.

### Primeras filas

Siempre es útil revisar los primeros renglones del dataframe para verificar que los datos estén en el formato apropiado. Para ello, vamos a utilizar el método `head()`. 

Un *método* es una función asociada a un objeto y se utiliza un punto para indicar esta asociación, por ejemplo `df.head()`. Un método tiene parámetros que van entre paréntesis. En el caso de `head()` podemos agregar el número de renglones que deseamos visualizar. De manera predeterminada este número es de 5 renglones

In [None]:
df.head(5)

Una alternativa es revisar los últimos cinco valores con `tail()` o una muestra con `sample()`. 

In [None]:
# Práctica: encuentra los últimos 3 valores del DataFrame


### Estructura del DataFrame

Cada dataframe tiene un *atributo* (una característica automática) de forma (*shape*). Esta forma tiene dos dimensiones: número de renglones y número de columnas. Estos dos valores se acomodan en una *tupla* (una lista que no puede ser modificada). Para desplegar este atributo agregamos `.shape` al nombre del DataFrame: 

In [None]:
df.shape

Nótese que *shape* no requiere argumentos y por tanto no se añaden paréntesis. Esa es la diferencia entre un *atributo* y un *método*.

### Nombres de las columnas
Los nombres de las columnas corresponden a los nombres de las variables y son otro atributo de los dataframes. Puedes consultar estos nombres agregando `.columns` al nombre del DataFrame:

In [None]:
df.columns

### Valores faltantes (inspección)
Es importante identificar los datos perdidos en un dataframe. Aunque en algunos casos son omitidos automáticamente, muchos procedimientos requieren que se tenga una matriz completa sin datos perdidos. 

Pandas utiliza el símbolo *NaN* (Not a number) para indicar datos numéricos perdidos (específicamente, datos perdidos de punto flotante). Si son datos de series de tiempo (*datatime*) son indicados como *NaT*.

Una forma rápida de consultar los datos perdidos en un dataframe es mediante el método `info()`. Al utilizarlo se mostrará el nombre de cada columna y el total de registros (*non-null values*)

In [None]:
df.info()

Este primer diagnóstico permite identificar si existen variables con datos incompletos y en qué magnitud. Más adelante se verán técnicas para cuantificar y tratar estos valores faltantes de forma explícita.

Pandas también reconoce automáticamente algunos formatos comunes de valores perdidos como NA o NULL; sin embargo, en muchas bases de datos los valores faltantes pueden estar codificados con números como 99 o incluso 0, lo cual requiere un análisis más cuidadoso.

### Tipo de datos

Para identicar qué tipo de dato es cada variable se puede utilizar el atributo `dtypes`.

In [None]:
df.dtypes

Puedes cambiar un tipo de dato a otro mediante el método `astype()`. Por ejemplo, si X debe ser *float* se puede usar `df.X.astype(float)`

In [None]:
df['tipo'] = df['tipo'].astype(object)
df.dtypes

## 6. Consulta y filtrado exploratorio
En esta sección realizaremos filtros temporales únicamente con fines exploratorios, por lo que no sobreescribiremos el dataset original.



### Selección mediante condiciones
Los datos pueden filtrarse mediante condiciones lógicas, escribiendo la condición directamente dentro de los corchetes.

In [None]:
df[df['construccion'] < 150]

En el ejemplo anterior `df['construccion']` sirve para identificar una columna, luego `df['construccion'] < 150` hace una comparación cuyo resultado es una serie booleana y finalmente, al usar `df[...]` Pandas selecciona solamente las filas para las cuales el resultado es `True`.


Si son dos condiciones, cada condición va dentro de un paréntesis

In [None]:
df[(df.construccion < 150) & (df.recamaras == 2)]

En el ejemplo anterior, observe que se utilizó el doble signo de igualdad ==. Se utiliza así cuando el objetivo es la comparación de valores.

### Selección de subconjuntos con .loc
El método `.loc` permite seleccionar simultáneamente filas y columnas de un DataFrame.
Su estructura general es:  
`df.loc[filas, columnas]`  
- En la primera parte se indica qué filas se desean seleccionar (por ejemplo, mediante una condición).
- En la segunda parte se indica qué columnas se desean conservar.

Si se omite la selección de columnas, pandas devolverá todas las columnas que cumplan la condición. Por ejemplo, el siguiente código selecciona únicamente las observaciones con menos de 150 metros de construcción y muestra solo las columnas construccion y recamaras:

In [None]:
df.loc[df['construccion'] < 150, ['construccion', 'recamaras']]

*Nota sobre advertencias al modificar datos filtrados*:  
Al filtrar un DataFrame y luego intentar modificar sus valores, es posible que pandas muestre la siguiente advertencia:  
`SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame`.  
Esta advertencia no significa que el código esté mal, sino que pandas no puede determinar con certeza si deseas modificar el DataFrame original o solo una copia temporal. Por ejemplo, considera el siguiente caso:  
```
filtro = df['recamaras'] > 5  
df[filtro]['construccion'] = 800    
```
Aquí, pandas primero crea un subconjunto de datos y luego intenta modificarlo, lo que genera ambigüedad sobre dónde se debe aplicar el cambio.

Para evitar esta advertencia y dejar clara la intención, se recomienda usar `.loc`, indicando explícitamente las filas y la columna que se desea modificar:  
```
filtro = df['recamaras'] > 5  
df.loc[filtro, 'construccion'] = 800  
```
De esta forma, pandas sabe que el cambio debe aplicarse directamente al DataFrame original.

Pandas también tiene un método query() Pandas tiene un método query()en el cual se introduce una expresión booleana y arroja un subconjunto del dataframe en el cual la expresión booleana es verdadera.

In [None]:
df.query('construccion < 150')

## 7. Organización de los datos
En esta sección organizamos el dataset para hacerlo más legible y entendible. Conviene trabajar sobre una copia de los datos originales. Usaremos el nombre *df_base* para distinguir de los datos originales. 

In [None]:
df_base = df.copy()

### Renombrado de columnas
Se recomienda que los nombres de las columnas sean claros, consistentes, en minúsculas, sin espacios y con significado. 

En caso de desear renombrar una columna en un dataframe llamado *df* se puede utilizar:   
`df.rename(columns={'nombre_anterior': 'nombre_nuevo'})`  
y sobreescribir el DataFrame con el nuevo nombre o bien utilizar el argumento `inplace=True`.

In [None]:
df_base = df_base.rename(columns={'baños':'banos'})
df_base.columns

### Selección de columnas
Frecuentemente, no todas las columnas son útiles y hay columnas que solo corresponden a "ruido" o a constantes que no se requiere. Una forma común de seleccionar únicamente las columnas relevantes es crear una lista con sus nombres.

In [None]:
columnas_seleccionadas = ['operacion', 'tipo', 'colonia','preciomillones',
                          'recamaras', 'banos', 'construccion']

In [None]:
df_base = df_base.loc[:, columnas_seleccionadas]

En esta expresión:
- el símbolo `:` indica todas las filas
- la lista `columnas_seleccionadas` indica qué columnas se desean conservar

Si deseas borrar una columna puedes utilizar `df.drop(columns=['nombre_columna'])`.

In [None]:
df_base = df_base.drop(columns=['colonia'])
df_base

### Reordenar columnas
Es una buena práctica organizar las columnas del DataFrame de forma lógica. Generalmente, se colocan primero los identificadores, después las variables categóricas y, al final, las variables numéricas. Esto facilita la lectura y comprensión de los datos.

A continuación, se reordenan las columnas seleccionando explícitamente el orden deseado:

In [None]:
df_base = df_base[['operacion', 'tipo', 'recamaras', 
                   'banos', 'construccion',  'preciomillones']]
df_base

## 8. Verificación final de estructura
Una vez realizados los cambios, es recomendable verificar nuevamente la estructura del DataFrame:

In [None]:
df_base.info()

In [None]:
df_base.head()