[![Abrir en Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/adan-rs/AnalisisDatos/blob/main/notebooks/03_Organizar_datos.ipynb)

# Manipulación básica de datos
"*In God we trust. All others must bring data" (W. E. Deming).*  


## Carga de los datos

En Python, trabajaremos con varias bibliotecas y el primer paso será especificar cuáles utilizaremos. En este caso, emplearemos Pandas, utilizando el alias `pd`. El nombre de esta biblioteca proviene del término *panel data* en referencia d atos estructurados en filas y columnas. 

In [None]:
import pandas as pd

También existen otras bibliotecas para manejo eficiente de grandes volúmenes de datos, como *Polars*, pero para este curso usaremos principalmente Pandas por su versatilidad y compatibilidad.

Ahora vamos a utilizar la función `pd.read_excel()` para leer el archivo en la cual agregaremos como argumentos la ubicación del archivo. 

In [None]:
#filepath = '../data/casas.xlsx'
filepath = 'https://github.com/adan-rs/AnalisisDatos/raw/main/data/casas.xlsx'

df = pd.read_excel(filepath)

Siempre se debe indicar la ubicación del archivo, a menos que el archivo esté en el mismo directorio del Jupyter notebook. Se pueden incluir algunas instrucciones mediante otros argumentos, por ejemplo, si es un archivo de Excel indicar qué hoja (`sheet_name`) o columnas (`usecols`) utilizar.

Los formatos más comunes son *csv* (comma separated value) y excel por lo que lo más frecuente es usar *read_excel* y *read_csv*. Dependiendo del tipo de archivo, también están disponibles funciones como *read_json*, *read_sas*, *read_stata*, *read_sql* y al menos una docena más.

### Dataframes

Una forma muy común de organizar los datos es en filas y columnas. Cada fila corresponde a una observación (elemento, objeto, caso, individuo, evento), y cada columna corresponde a una variable. En Pandas, a este tipo de ordenamiento se le conoce como DataFrame y la función que utilizamos importa los datos en un DataFrame.

In [None]:
df

Observa que una característica adicional es que cuentan con un índice para las filas. En principio, este índice es secuencial empezando por cero, pero puede ser sustituido por un ID, una fecha o cualquier otra variable. Un DataFrame puede incluso tener varios índices para representar objetos multidimensionales (cubos de datos).

Para seleccionar solamente una columna utiliza corchetes o notación con punto, por ejemplo `df['recamaras']` o `df.recamaras`. Al seleccionar una sola columna esta se mostrará como una serie.

In [None]:
df['recamaras']

Para seleccionar múltiples columnas, agrega las columnas en una lista:

In [None]:
df[['recamaras', 'baños']]

Puedes realizar operaciones aritméticas directamente sobre las columnas del DataFrame y guardar el resultado en una nueva columna:

In [None]:
df['preciom2'] = (df['preciomillones'] / df['construccion']) * 1000000
df

En este ejemplo, se calcula el precio por metro cuadrado a partir del precio total en millones y el área construida, y se guarda en la nueva columna preciom2.

## Revisión de los datos
Una vez que los datos han sido cargados en un DataFrame, el siguiente paso es inspeccionarlos para asegurarse de que tengan el formato correcto y estén listos para su análisis.

### Revisa los primeros renglones

Siempre es útil revisar los primeros renglones del dataframe para verificar que los datos estén en el formato apropiado. Para ello, vamos a utilizar el método `head()`. 

Un *método* es una función asociada a un objeto y se utiliza un punto para indicar esta asociación, por ejemplo `df.head()`. Un método tiene parámetros que van entre paréntesis. En el caso de `head()` podemos agregar el número de renglones que deseamos visualizar. De manera predeterminada este número es de 5 renglones

In [None]:
df.head(5)

Una alternativa es revisar los últimos cinco valores con `tail()` o una muestra con `sample()`. 

In [None]:
# Práctica: encuentra los últimos 3 valores del DataFrame


### Revisa la estructura de tu dataframe

Cada dataframe tiene un *atributo* (una característica automática) de forma (*shape*). Esta forma tiene dos dimensiones: número de renglones y número de columnas. Estos dos valores se acomodan en una *tupla* (una lista que no puede ser modificada). Para desplegar este atributo agregamos `.shape` al nombre del DataFrame: 

In [None]:
df.shape

Nótese que *shape* no requiere argumentos y por tanto no se añaden paréntesis. Esa es la diferencia entre un *atributo* y un *método*.

### Revisa los nombres de las columnas
Los nombres de las columnas corresponden a los nombres de las variables y son otro atributo de los dataframes. Puedes consultar estos nombres agregando `.columns` al nombre del DataFrame:

In [None]:
df.columns

En caso de desear renombrar una columna en un dataframe llamado *df* se puede utilizar:   
`df.rename(columns={'nombre_anterior': 'nombre_nuevo'})`  
y sobreescribir el DataFrame con el nuevo nombre o bien utilizar el argumento `inplace=True`.

In [None]:
df = df.rename(columns={'baños':'banos'})
df.columns

Si deseas borrar una columna puedes utilizar `df.drop(columns=['nombre_columna'])`.

In [None]:
df = df.drop(columns=['colonia'])
df

### Revisa los datos perdidos
Es importante identificar los datos perdidos en un dataframe. Aunque en algunos casos son omitidos automáticamente, muchos procedimientos requieren que se tenga una matriz completa sin datos perdidos. 

Pandas utiliza el símbolo *NaN* (Not a number) para indicar datos numéricos perdidos (específicamente, datos perdidos de punto flotante). Si son datos de series de tiempo (*datatime*) son indicados como *NaT*.

Una forma rápida de consultar los datos perdidos en un dataframe es mediante el método `info()`. Al utilizarlo se mostrará el nombre de cada columna y el total de registros (*non-null values*)

In [None]:
df.info()

Para revisar los valores perdidos en una variable puedes usar los métodos `isna()` o `notna()`, que arrojarán *True* o *False* para elemento según corresponda. Puedes contar el número de valores perdidos encadenando `sum()` y especificar incluso la variable:

In [None]:
df.recamaras.isna().sum()

Pandas reconoce automáticamente algunos formatos de valores perdidos como *NA* o *NULL* pero considera que en muchas bases de datos los valores perdidos tienen algún código numérico como 99 o incluso 0.

Para borrar los datos perdidos puedes utilizar `df.dropna()` para borrar las filas con valores perdidos. Se puede sobrescribir el DataFrame con los cambios utilizando `df = df.dropna()` o bien con: `df.dropna(inplace=True)`

In [None]:
df = df.dropna()

### Revisa los tipos de datos

Para identicar qué tipo de dato es cada variable se puede utilizar el atributo `dtypes`.

In [None]:
df.dtypes

Puedes cambiar un tipo de dato a otro mediante el método `astype()`. Por ejemplo, si X debe ser *float* se puede usar `df.X.astype(float)`

In [None]:
df['tipo'] = df['tipo'].astype(object)
df.dtypes

### Cálculo de estadística descriptiva
Aunque este tema se revisará a detalle más adelante, se puede utilizar `df.describe()` para obtener de manera general la estadística descriptiva.

In [None]:
df.describe()

## Consulta y filtrado de dataframes
Pandas tiene un método `query()`en el cual se introduce una expresión booleana y arroja un subconjunto del dataframe en el cual la expresión booleana es verdadera.

In [None]:
df.query('construccion < 150')

Las consultas se pueden ser más complejas, por ejemplo

In [None]:
df.query('construccion < 150 and recamaras == 2')

En el ejemplo anterior, observe que se utilizó el doble signo de igualdad `==`. Se utiliza así cuando el objetivo es la comparación de valores

Otra opción para filtrar con condiciones es escribir la condición dentro de los corchetes

In [None]:
df[df['construccion'] < 150]

En el ejemplo anterior `df['construccion']` sirve para identificar una columna, luego `df['construccion'] < 150` hace una comparación cuyo resultado es una serie booleana y finalmente, al usar `df[...]` Pandas selecciona solamente las filas para las cuales el resultado es `True`

Si son dos condiciones, cada condición va dentro de un paréntesis

In [None]:
df[(df.construccion < 150) & (df.recamaras == 2)]

Una selección avanzada de filas y columnas también se puede realizar con `.loc` con el formato `df.loc[filtro, columnas]`. Si se omiten las columnas se seleccionarán todas.

In [None]:
df.loc[df['construccion'] < 150, ['construccion', 'recamaras']]

*Nota*: Al filtrar con condiciones y luego hacer modificaciones al DataFrame es posible que te arroje la siguiente advertencia:  
`SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame`.  
En esos casos surgen cuando Pandas no puede determinar si deseas modificar una copia del DataFrame o el DataFrame original. La alternativa para evitar este error es filtrar utilizando `.loc`.  
Por ejemplo, supongamos que realizas lo siguiente:  
```
filtro = df['recamaras'] > 5  
df[filtro]['construccion'] = 800    
```
Esto arrojará la advertencia `SettingWithCopyWarning`.
La alternativa para evitarlo es:  
```
filtro = df['recamaras'] > 5  
df.loc[filtro, 'construccion'] = 800  
```
La diferencia está en que ahora se está accediendo directamente al DataFrame original y no una copia del original

## Transformaciones básicas
En esta sección aprenderás a realizar transformaciones comunes que te permitirán ordenar, resumir y reorganizar la información de un DataFrame para facilitar su análisis.

### Ordenar dataframe
Puedes ordenar las filas de un DataFrame utilizando una o más columnas como criterio. Por ejemplo, para ordenar por número de recámaras y después por número de baños:

In [None]:
df.sort_values(by=['recamaras', 'banos'], inplace=True)
df

Si deseas restablecer la numeración del índice después de ordenar, puedes usar `df.reset_index(drop=True, inplace=True)`

### Agrupado

El método groupby() permite agrupar filas que comparten un mismo valor en una columna, y luego aplicar funciones como promedio, suma, conteo, etc. Este ejemplo muestra el precio promedio por tipo de propiedad.

In [None]:
df.groupby('tipo')['preciomillones'].mean()

Podemos agrupar con base en dos variables y mostrar los valores promedio de las otras variables

In [None]:
df.groupby(['tipo', 'recamaras'])['preciomillones'].mean()

También puedes aplicar otras funciones: `.sum()`, `.count()`, `.median()`, etc.

### Tablas pivote
Las tablas pivote son una herramienta poderosa para reorganizar y resumir datos en formato de tabla dinámica, similar a Excel. Para crear tablas pivote, se utiliza el método pivot_table con la siguiente estructura:
`df.pivot_table(index='columna1', columns='columna2', values='columna3', aggfunc='mean')`  
- En el parámetro `index`, se especifica la variable que se ubicará en las filas.
- En el parámetro `columns`, se define la variable que se ubicará en las columnas.
- En `values`, se indican los valores que se mostrarán en las intersecciones de las filas y columnas.
- En `aggfunc`, se especifica la función de agregación que se aplicará, como `mean`, `sum`, `count`, `median`, `min`, `max`, `std`, o `var`.

Realiza el siguiente ejemplo:

In [None]:
df_pivote = df.pivot_table(index='tipo', columns='recamaras', 
                           values='preciomillones', aggfunc='mean')
df_pivote

Este código crea una tabla donde:
- Cada fila representa un tipo de propiedad.
- Cada columna representa un número de recámaras.
- Las celdas muestran el precio promedio en millones.


## Gráficos básicos

Pandas permite generar gráficos de manera rápida utilizando métodos integrados, sin necesidad de importar directamente matplotlib. Aunque estos gráficos son simples, son útiles para exploraciones iniciales.
Un gráfico de línea es ideal para visualizar la evolución de una variable en el tiempo. La sintaxis es `df['A'].plot()`

Un histograma básico con `df['A'].plot.hist()` o incluso `df['A'].hist()`

In [None]:
# Ejemplo de histograma
df['preciomillones'].plot.hist();

Para un diagrama de caja (*boxplot*) se puede utilizar `df['A'].plot.box()`

In [None]:
# Ejemplo de diagrama de caja
df['preciomillones'].plot.box();

Finalmente, un diagrama de dispersión se puede realizar con `df.plot.scatter(x='A', y='B')`

In [None]:
# Ejemplo de diagrama de dispersión
df.plot.scatter(x='banos', y='recamaras');

## Uniones de dataframes
En análisis de datos, es común combinar información proveniente de diferentes fuentes. Para ello, usamos uniones (*joins*) entre DataFrames, de forma similar a las uniones en bases de datos relacionales.

Pandas ofrece la función `pd.merge()` para realizar este tipo de operaciones.
A continuación, se muestra un ejemplo con dos DataFrames simples para ilustrar claramente los resultados.


In [None]:
# Dataframe izquierdo
df_L = {'key':['A','B','C'],
        'L1':[ 1, 2, 3]}
df_L = pd.DataFrame(df_L)
df_L

In [None]:
# Dataframe derecho
df_R = {'key':['A','B','D'],
        'R1':[ 'T', 'F', 'T']}
df_R = pd.DataFrame(df_R)
df_R

Unión interna de los dataframes L y R. 
Solo conserva filas que están en AMBOS dataframes.

In [None]:
df_i = pd.merge(df_L, df_R, how='inner', on='key')
df_i

Unión externa de los dataframes L y R: Devuelve todos los valores en todas filas, rellenando con NaN los valores faltantes en ambos.

In [None]:
df_o = pd.merge(df_L, df_R, how='outer', on='key')
df_o

Unión izquierda de los dataframes L y R: devuelve todas las filas del dataframe izquierdo y las une con los valores coincidentes del dataframe derecho.

In [None]:
df_left = pd.merge(df_L, df_R, how='left', on='key')
df_left

Observe que how= puede tomar los valores: 'inner', 'outer', 'left', 'right', según la lógica deseada. Por otra parte, el argumento `on='key'` indica que la columna llamada 'key' será usada para realizar la unión. También puedes unir por columnas con diferentes nombres utilizando `left_on=` y `right_on=`.