# Pandas: Análisis de datos

Las dependencias o bibliotecas son código escrito previamente para ayudar a resolver problemas. En este video, presentaremos **pandas**, una biblioteca popular para el análisis de datos. 

## Importar la biblioteca

Puede importar la biblioteca o dependencia como pandas usando el siguiente comando. Comience con el comando de importación seguido del nombre de la biblioteca. Ahora tiene acceso a una gran cantidad de clases y funciones preconstruidas. Esto supone que la biblioteca está instalada.

In [13]:
import pandas

En nuestro entorno de laboratorio, todas las bibliotecas necesarias están instaladas.

### Cargar un archivo CSV
Digamos que nos gustaría cargar un archivo CSV usando la función incorporada de pandas, `read_csv`. Un CSV es un tipo de archivo típico que se usa para almacenar datos. Simplemente escriba la palabra `pandas`, luego un punto y el nombre de la función con todas las entradas.

In [16]:
df = pandas.read_csv('archivo.csv')

Escribir "pandas" todo el tiempo puede ser tedioso, por lo que puede usar la instrucción `as` para acortar el nombre de la biblioteca. En este caso, use la abreviatura estándar `pd`.

In [17]:
import pandas as pd
df = pd.read_csv('archivo.csv')

No está limitado a la abreviatura `pd`. En este caso, usamos el término `banana`. Sin embargo, nos quedaremos con `pd` por el resto de este video.

### Explorando los datos
Examinemos este código con más detalle. Una forma en que pandas le permite trabajar con datos es en un **dataframe**. Repasemos el proceso de pasar de un archivo CSV a un dataframe.

In [18]:
ruta_csv = 'archivo.csv'
df = pd.read_csv(ruta_csv)

Ahora que tiene los datos en un dataframe, puede trabajar con ellos. Puede utilizar el método `head` para examinar las primeras cinco filas de un dataframe.

In [19]:
df.head()

Unnamed: 0,Nombre,Edad,País,Profesión
0,Ana,29,México,Ingeniera
1,Luis,35,España,Doctor
2,María,22,Argentina,Estudiante
3,Carlos,40,Chile,Profesor


### Cargar un archivo Excel
El proceso para cargar un archivo Excel es similar. Utilice la ruta del archivo Excel y la función `read_excel`. El resultado es un dataframe.

In [20]:
df = pd.read_excel('archivo.xlsx')

FileNotFoundError: [Errno 2] No such file or directory: 'archivo.xlsx'

### Crear un dataframe desde un diccionario
Un dataframe se compone de filas y columnas. Puede crear un dataframe a partir de un diccionario. Las claves corresponden a las etiquetas de las columnas y los valores son listas que corresponden a las filas.

In [21]:
data = {
    'Columna1': [1, 2, 3],
    'Columna2': [4, 5, 6]
}
df = pd.DataFrame(data)

Observe la correspondencia directa entre la tabla: las claves corresponden a los encabezados de la tabla, los valores son listas que corresponden a las filas.

### Filtrar columnas de un dataframe
Cree un nuevo dataframe que conste de una columna. Encierre el nombre del dataframe y el nombre del encabezado de la columna entre corchetes dobles. El resultado es un nuevo dataframe compuesto por la columna original.

df_nueva_columna = df[['Columna1']]

Puede hacer lo mismo para varias columnas.

In [22]:
df_nuevas_columnas = df[['Columna1', 'Columna2']]

### Acceder a elementos únicos con iloc
Una forma de acceder a elementos únicos es con el método iloc. La primera entrada es un entero que representa el índice de fila, y la segunda es el entero que representa el índice de columna.

In [23]:
df.iloc[0, 0]  # Primera fila, primera columna
df.iloc[1, 0]  # Segunda fila, primera columna
df.iloc[0, 2]  # Primera fila, tercera columna
df.iloc[1, 2]  # Segunda fila, tercera columna

IndexError: index 2 is out of bounds for axis 0 with size 2

### Acceder a elementos por nombre con loc
Puede utilizar el nombre del índice de fila y la columna también. Por ejemplo:

In [24]:
df.loc[0, 'artista']  # Primera fila, columna 'artista'
df.loc[1, 'artista']  # Segunda fila, columna 'artista'
df.loc[0, 'liberada'] # Primera fila, columna 'liberada'

KeyError: 'artista'

`loc` también se puede utilizar si el índice no es un entero. Por ejemplo, si se reemplaza el índice numérico con letras:

In [25]:
df_new = df.set_index(['a', 'b', 'c'])
df_new.loc['a', 'artista']  # Índice 'a', columna 'artista'
df_new.loc['b', 'artista']  # Índice 'b', columna 'artista'

KeyError: "None of ['a', 'b', 'c'] are in the columns"

### Dividir un dataframe
También puedes dividir los dataframes y asignar los valores a un nuevo dataframe.

In [26]:
z = df.iloc[0:2, 0:3]  # Primeras dos filas y tres columnas

O también puedes usar `loc` para seleccionar filas y columnas específicas por nombre:

In [27]:
z = df.loc[0:2, 'artista':'liberada']  # Primeras tres filas, columnas entre 'artista' y 'liberada'

Consulta los laboratorios para ver más ejemplos.