<a href="https://colab.research.google.com/github/molecular-mar/molecular-mar.github.io/blob/master/Sesion9_2_PAQ24P.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Manejo de datos con Pandas

Pandas es una biblioteca de Python ampliamente utilizada para el análisis y la manipulación de datos. Veremos que al usarlo generaremos datos con estructura de tablas, similar a una hoja de cálculo. Puedes consultar la documentación en la página de [Pandas](https://pandas.pydata.org/docs/user_guide/index.html).

Comencemos por cargar el paquete que suele abreviarse con `pd`:

In [None]:
import pandas as pd

Antes de continuar, veamos como podemos subir un archivo a la nube de Colab. Primero debemos cargar el archivo, dando click sobre el ícono de carpeta del lado izquierdo.
Puedes arrastrar tu archivo a la sección que se despliega para subirlo.

❓Carga el archivo `propiedades_químicas.csv`  que se encuentra en el aula virtual en la sección "Datos atómicos".


## Lectura de archivos

Pandas puede leer distintos formatos de archivo: csv, xls, xlsx (ambos formatos usados en Excel), html, entre otros. Las funciones para leer un archivo tienen nombres fáciles de recordar o deducir, como `read_csv()` y `read_excel()`.

En la siguiente celda leeremos el archivo csv que subiste a Colab previamente:

In [None]:
datos_elementos = pd.read_csv('propiedades_quimicas.csv')

La función `read_csv` tiene varios parámetros que podemos modificar según sea necesario. Algunos son:



*   `sep`: para indicar el separador de los datos. Si en lugar de coma se utiliza punto y coma, deberíamos indicar `sep=";"`
*   `skiprows`: nos permite indicar cuántas filas deben omitirse al inicio del archivo. Útil cuando al comienzo tenemos datos como título y comentarios.
*   `skipfooter`: similar a skiprows, para omitir filas al final del archivo.
* `header`: Para indicar si la primera fila contiene los títulos de las columnas. Debe indicarse con un booleano: `header=True` si se encuentran los encabezados, `header=False` si no se quieren leer del archivo.



Pandas hace uso de un tipo de dato llamado `DataFrame`, el cuál permite la visualización, manipulación y análisis de datos en formato de tablas. Veamos el `DataFrame` (df) que cargamos en `datos_elementos`:

In [None]:
# Primero comprobemos el tipo de dato:
print(type(datos_elementos))

In [None]:
# Visualicemos datos_elementos:
datos_elementos

Podemos visualizar las dimensiones del df similar a como lo hicimos para los arrays de Numpy:

In [None]:
print(datos_elementos.shape) # Dimensiones: (filas, columnas)
print(datos_elementos.size) # Número total de elementos

Es importante hacer una copia del df original, ya que posteriormente haremos algunas modificaciones y podriamos perder la información original. Para ello podemos utilizar la instrucción `copy`:

In [None]:
datos_elementos_original = datos_elementos.copy()

Podemos obtener el análisis estadísticos de los datos del dataframe de forma sencilla utilizando la instrucción `describe()`:

In [None]:
datos_elementos.describe()

## Acceso a los datos

El acceso a los datos de un df es similar a como se realiza para los array de Numpy. La diferencia es que ahora también podemos acceder haciendo uso de los títulos de las columnas y de las filas. Veamos algunos ejemplos:

In [None]:
# Para recuperar los datos de una columna
datos_elementos['Elemento']

In [None]:
# Para recuperar los datos de una fila. Requerimos de loc:
datos_elementos.loc[0]

**Nota:** Cuando leemos los datos desde un archivo y no indicamos los títulos de columnas o de filas, estos son autogenerados utilizando enteros. Es importante verificar el tipo de dato de los títulos en dicho caso, probando si funciona `datos_elementos.loc[0]` o `datos_elementos.loc['0']`

In [None]:
# Para acceder a un elemento de la tabla
datos_elementos.loc[1,'Elemento'] # Damos fila y columna

In [None]:
# Usando indices de posición. Debemos usar iloc:
print(datos_elementos.iloc[2, 2])

In [None]:
# Podemos hacer uso de slicing con iloc
print(datos_elementos.iloc[2:, :2])

In [None]:
# Podemos usar listas de títulos para especificar varios indices/columnas
# Nota que pueden no ser consecutivos:
datos_elementos.loc[[7,5],['Elemento','Electronegatividad']]

❓
* Descarga del aula virtual el archivo "Datos de titulación", luego súbelo a Colab y lee el archivo usando pandas.
* Guarda en variables separadas las columnas `V` y `ΔE`.
* Guarda en otra variable los datos de la fila 30 a la fila 76.
* Usando una sola instrucción de pandas, guarda en otra variable  los datos de la fila 20 a la 40 de las columnas `pH` y `∆pH/∆v (mL)`

In [None]:
# Para leer un archivo Excel es necesario importar openpyxl
import openpyxl
import pandas as pd

titulacion = pd.read_excel()# Debes modificar esta linea.
# Utiliza los siguientes parámetros:
# skiprows=1, skipfooter=15, sheet_name='Hoja1'

## Modificando el DataFrame

Podemos realizar distintos tipos de modificaciones sobre un df, como modificar datos de la tabla, agregar o eliminar filas y columnas e incluso unir tablas. Veamos algunas de estas instrucciones:

In [None]:
# Podemos insertar columnas. Recordemos la forma de nuestro df
datos_elementos

In [None]:
# Añadimos una columna de estado de oxidación
datos_elementos['Estado de oxidación'] = [+1, -2, +4, -3, +2, +1, +1, +2, -2, +5]
datos_elementos

También podemos eliminar filas y columnas. Para esto utilizamos la instrucción `drop`, donde debemos indicar el título y si se trata de una columna (`axis=1`) o de una fila(`axis=0`):

In [None]:
# Para conservar los cambios es importante guardar en el mismo dataframe
datos_elementos = datos_elementos.drop('Estado a 25°C', axis=1)

In [None]:
# ¿Qué significa axis 0 o 1?
datos_elementos = datos_elementos.drop(9, axis=0)
datos_elementos

La instrucción `merge` nos permite unir dos dataframes. No tienen que ser necesariamente de la misma forma (`shape`). Si tenemos una `tabla1` y una `tabla2`, para unir la segunda con la primera escribimos `tabla1.merge(tabla2)`.

In [None]:
datos_elementos2 = pd.read_csv('propiedades_quimicas2.csv')
datos_elementos2_original = datos_elementos2.copy()
datos_elementos2

In [None]:
#Usamos merge para unir ambos df
datos_elementos.merge(datos_elementos2)

También existe la instrucción `concat`, que realiza la unión de ambas tablas pero a diferencia de `merge` no empata los datos que hay en común (en ambas tablas, la columna en común es `Elemento`). También cambia la sintaxis: para unir `tabla1` y `tabla2`, debemos escribir `pd.concat((tabla1, tabla2))`:

In [None]:
pd.concat((datos_elementos, datos_elementos2))

In [None]:
# Especificando el eje
pd.concat((datos_elementos, datos_elementos2), axis=1)

❓ Sube los archivos *ir700.csv* e *ir800.csv*, que se encuentran en el aula virtual. Leelos y visualiza el contenido de cada dataframe. Genera un nuevo dataframe donde los datos de ambos archivos estén unidos de forma adecuada.

### Tarea

1. Del dataframe `datos_elementos` genera un nuevo df, llamado `nuevos_datos1`, que solo tenga las columnas `Elemento`, `Electronegatividad` y `Estado de Oxidación`.

2. Del dataframe `datos_elementos2` genera otro df llamado `nuevos_datos2` con las columnas `Elemento` y `Configuración Electrónica`.

3. Une los dataframes de los pasos 1 y 2, guardando el df resultante en `datos_electrones` y obtén sus estadísticas.

4. Del df `datos_electrones` obtén las filas de los elementos cuyos números atómicos están entre 6 y 12. Calcula sus estadísticas.