# Sesión 02: Manipulación básica de datos
*"In God we trust. All others must bring data" (W. E. Deming).*  


## 2.1 Carga de los datos

En python trabajaremos con varias bibliotecas y como primer paso debemos indicar cuál emplearemos para importar los datos. En este caso utilizaremos *pandas* con el alias *pd*. El nombre de pandas proviene de *panel data*. Otra alternativa, especialmente para grandes conjuntos de datos, es *polars*.

In [None]:
import pandas as pd

Ahora vamos a utilizar la función `pd.read_excel()` para leer el archivo en la cual agregaremos como argumentos la ubicación del archivo. 

In [None]:
url = 'https://github.com/adan-rs/AnalisisDatos/raw/main/s02_manipulacion_datos/b01_casas.xlsx'

df = pd.read_excel(url)

Siempre se debe indicar la ubicación del archivo, a menos que el archivo esté en el mismo directorio del Jupyter notebook. Se pueden incluir algunas instrucciones mediante otros argumentos, por ejemplo, si es un archivo de Excel indicar qué hoja o columnas utilizar.

Los formatos más comunes son *csv* (comma separated value) y excel por lo que lo más frecuente es usar *read_excel* y *read_csv*. Dependiendo del tipo de archivo, también están disponibles funciones como *read_json*, *read_sas*, *read_stata*, *read_sql* y al menos una docena más.

### Dataframes

Una forma muy común de organizar los datos es en filas y columnas. Cada fila corresponde a una observación (elemento, objeto, caso, individuo, evento), y cada columna corresponde a una variable (en machine learning las variables se les conoce como *features*). En Pandas, a este tipo de ordenamiento se le conoce como DataFrame y la función que utilizamos importa los datos en un dataframe.

In [None]:
df

Observa que una característica adicional es que cuentan con un índice para las filas. En principio, este índice es secuencial empezando por cero, pero puede ser sustituido por un ID, una fecha o cualquier otra variable. Un dataframe puede incluso tener varios índices para representar objetos multidimensionales (cubos de datos).

Para seleccionar solamente una columna utiliza corchetes o notación con punto, por ejemplo `df['recamaras']` o `df.recamaras`. Al seleccionar una sola columna esta se mostrará como una serie.

In [None]:
df['recamaras']

Para seleccionar múltiples columnas, agrega las columnas en una lista:

In [None]:
df[['recamaras', 'baños']]

Es posible hacer operaciones con columnas. Por ejemplo

In [None]:
df['preciom2'] = (df['preciomillones'] / df['construccion']) * 1000000
df

## 2.2 Revisión de los datos

### Revisa los primeros renglones

Siempre es útil revisar los primeros renglones del dataframe para verificar que los datos estén en el formato apropiado. Para ello, vamos a utilizar el método `head()`. 

Un *método* es una función asociada a un objeto y se utiliza un punto para indicar esta asociación, por ejemplo `df.head()`. Un método tiene parámetros que van entre paréntesis. En el caso de `head()` podemos agregar el número de renglones que deseamos visualizar. De manera predeterminada este número es de 5 renglones

In [None]:
df.head(5)

Una alternativa es revisar los últimos cinco valores con `tail()` o una muestra con `sample()`. 

In [None]:
# Práctica: encuentra los últimos 3 valores del DataFrame


### Revisa la forma de tu dataframe

Cada dataframe tiene un *atributo* (una característica automática) de forma (*shape*). Esta forma tiene dos dimensiones: número de renglones y número de columnas. Estos dos valores se acomodan en una *tupla* (una lista que no puede ser modificada). Para desplegar este atributo agregamos `.shape` al nombre del DataFrame: 

In [None]:
df.shape

Nótese que *shape* no requiere argumentos y por tanto no se añaden paréntesis. Esa es la diferencia entre un *atributo* y un *método*.

### Revisa los nombres de las columnas
Los nombres de las columnas corresponden a los nombres de las variables y son otro atributo de los dataframes. Puedes consultar estos nombres agregando `.columns` al nombre del DataFrame:

In [None]:
df.columns

En caso de desear renombrar una columna en un dataframe llamado *df* se puede utilizar:   
`df.rename(columns={'nombre_anterior': 'nombre_nuevo'})`

In [None]:
df = df.rename(columns={'baños':'banos'})
df.columns

Si deseas borrar una columna puedes utilizar `df.drop(columns=['nombre_columna'])`.

In [None]:
df = df.drop(columns=['colonia'])
df

### Revisa los datos perdidos
Es importante identificar los datos perdidos en un dataframe. Aunque en algunos casos son omitidos automáticamente, muchos procedimientos requieren que se tenga una matriz completa sin datos perdidos. 

Pandas utiliza el símbolo *NaN* (Not a number) para indicar datos numéricos perdidos (específicamente, datos perdidos de punto flotante). Si son datos de series de tiempo (*datatime*) son indicados como *NaT*.

Una forma rápida de consultar los datos perdidos en un dataframe es mediante el método `info()`. Al utilizarlo se mostrará el nombre de cada columna y el total de registros (*non-null values*)

In [None]:
df.info()

Para revisar los valores perdidos en una variable puedes usar los métodos `isna()` o `notna()`, que arrojarán *True* o *False* para elemento según corresponda. Puedes contar el número de valores perdidos agregando `sum()` y especificar incluso la variable:

In [None]:
df.recamaras.isnull().sum()

Pandas reconoce automáticamente algunos formatos de valores perdidos como *NA* o *NULL* pero considera que en muchas bases de datos los valores perdidos tienen algún código numérico como 99 o incluso 0.

Para borrar los datos perdidos puedes utilizar `df.dropna()`. Sin embargo, el tratamiento de datos perdidos se verá en una práctica posterior.

### Revisa los tipos de datos

Para identicar qué tipo de dato es cada variable se puede utilizar el método `dtype`.

In [None]:
df.dtypes

Puedes cambiar un tipo de dato a otro mediante el método `astype()`. Por ejemplo, si X debe ser *float* se puede usar `df.X.astype(float)`

In [None]:
df['tipo'] = df['tipo'].astype(object)
df.dtypes

### Cálculo de estadística descriptiva
Aunque este tema se revisará a detalle más adelante, se puede utilizar `df.describe()` para obtener de manera general la estadística descriptiva.

In [None]:
df.describe()

## 2.3 Consulta de dataframes
Pandas tiene un método `query()`en el cual se introduce una expresión booleana y arroja un subconjunto del dataframe en el cual la expresión booleana es verdadera.

In [None]:
df.query('construccion < 150')

Las consultas se pueden ser más complejas, por ejemplo

In [None]:
df.query('construccion < 150 and recamaras == 2')

En el ejemplo anterior, observe que se utilizó el doble signo de igualdad `==`. Se utiliza así cuando el objetivo es la comparación de valores

Otra opción para filtrar con condiciones es escribir la condición dentro de los corchetes

In [None]:
df[df['construccion'] < 150]

Si son dos condiciones, cada condición va dentro de un paréntesis

In [None]:
df[(df.construccion < 150) & (df.recamaras == 2)]

Si lo que interesa son los valores más grandes o más pequeños en alguna variable se puede utilizar `nlargest()` o `nsmallest()` respectivamente

In [None]:
df_subset = df.nlargest(4, 'recamaras')
df_subset

Una selección avanzada de filas y columnas también se puede realizar con `.loc`

## 2.4 Transformaciones básicas

### Agregar estilos al dataframe
Es posible agregar estilos a los dataframes con el método `style`. Por ejemplo, se puede usar `set_caption` para agregar un título al dataframe o `hide` para ocultar el índice.

In [None]:
df_subset.style.set_caption('Casas con más recámaras').hide()

### Ordenar dataframe
Podemos ordenar un dataframe con base en varias de las variables

In [None]:
df.sort_values(by=['recamaras', 'banos'], inplace=True)
#df.reset_index(inplace=True)
df

### Agrupado

Puedes agrupar las filas con base en una variable y, por ejemplo, calcular la media para otras variables

In [None]:
df.groupby('tipo')['preciomillones'].mean()

Podemos agrupar con base en dos variables y mostrar los valores promedio de las otras variables

In [None]:
df.groupby(by=['tipo', 'recamaras'])['preciomillones'].mean()

### Tablas pivote
Para crear tablas pivote se puede utilizar el método `pivot_table` por ejemplo:  
`df.pivot_table(index='columna1', values='columna2', aggfunc='mean')`

En el parámetro *index* está la variable que irá en filas y en el parámetro *columns* la variable que irá en las columnas. En *values* se indican los valores que irán en las intersecciones y en *aggfunc* se indica el cálculo a realizar que de manera predeterminada es la media. Por ejemplo:

In [None]:
df_pivote = df.pivot_table(index='tipo', columns='recamaras', 
                           values='preciomillones', aggfunc="count")
df_pivote

## 2.5 Gráficos básicos

In [None]:
df['preciomillones'].hist();

In [None]:
df.boxplot(column='preciomillones');

In [None]:
df.plot('banos', 'recamaras', kind='scatter');