# Pandas

## Crear un Dataframe

Es posible crear un Dataframe de pandas de formas diferentes:

- A partir de arrays unidimensionales (listas de Python o arrays de Numpy)
- A partir de un diccionario de Python
- A partir de un fichero CSV
- A partir de un fichero JSON

Antes de comenzar importaremos las librerías necesarias:

In [1]:
# Importamos las librerías necesarias
import pandas as pd
import numpy as np

### Crear un Dataframe a partir de arrays unidimensionales

#### Crear un Dataframe a partir de listas de Python

In [2]:
# Una lista de Python es un tipo de estructura de datos que representa una secuencia ordenada de elementos.
# Para representar una lista empleamos los corchetes ('[]').
# Podemos definir una lista enumerando sus elementos separados por comas.
# Por ejemplo, podemos definir una lista 'datos' que contenga los números del 1 al 5:
datos = [1, 2, 3, 4, 5]

In [3]:
# Mostramos la lista
datos

[1, 2, 3, 4, 5]

In [4]:
# Los elementos de una lista pueden ser de cualquier tipo, incluso pueden ser otras listas
# Por ejemplo:
elemento_1 = [1, 2]
elemento_2 = [3, 4]
elemento_3 = [5, 6]
datos = [elemento_1, elemento_2, elemento_3]

In [5]:
# Mostramos nuevamente la lista
datos

[[1, 2], [3, 4], [5, 6]]

In [6]:
# Esta estructura es lo que se conoce como una lista anidada (una lista que contiene otras listas)
# Es posible crear dicha lista anidada en una única línea de código:
datos = [[1,2], [3,4], [5,6]]

In [7]:
# Mostramos la lista
datos

[[1, 2], [3, 4], [5, 6]]

In [8]:
# Si escribimos cada elemento de la lista anidada anterior en una línea de código
# diferente podemos ver que conforman una matriz con la siguiente estructura:
#
# ╔═══╤═══╗
# ║ 1 │ 2 ║
# ╠═══╪═══╣
# ║ 3 │ 4 ║
# ╟───┼───╢
# ║ 5 │ 6 ║
# ╚═══╧═══╝

datos = [
    [1,2],
    [3,4],
    [5,6]
]

In [9]:
# pandas nos permite crear un Dataframe a partir de una lista anidada.
# El siguiente código crea un DataFrame sin especificar
# los encabezados de las filas y las columnas, que se generarán
# de forma autonumérica.
datos = [[1,2], [3,4], [5,6]]
df = pd.DataFrame(datos)
df

Unnamed: 0,0,1
0,1,2
1,3,4
2,5,6


In [10]:
# Si lo desemamos podemos crear el DataFrame especificando los
# encabezados de filas y columnas.
df = pd.DataFrame(
    datos,
    index=['fila1', 'fila2', 'fila3'],
    columns=['col1', 'col2']
)

In [11]:
# Mostramos el Dataframe
df

Unnamed: 0,col1,col2
fila1,1,2
fila2,3,4
fila3,5,6


#### Crear un Dataframe a partir de un array de NumPy

In [27]:
# También es posible crear un DataFrame a partir de un array de NumPy
# Creamos el array
datos = np.array([[1,2], [3,4], [5,6]])
datos

array([[1, 2],
       [3, 4],
       [5, 6]])

In [13]:
# Al igual que antes, es posible crear el DataFrame especificando los
# nombres de filas y columnas
df = pd.DataFrame(
    datos,
    index=['fila1', 'fila2', 'fila3'],
    columns=['col1', 'col2']
)

In [14]:
# Mostramos el Dataframe
df

Unnamed: 0,col1,col2
fila1,1,2
fila2,3,4
fila3,5,6


### Crear un Dataframe a partir de un diccionario

In [15]:
# Otra forma habitual de crear DataFrames es a partir
# de un diccionario.
# Comenzamos creando las columnas (Series) del Dataframe:
col1=[1,3,5]
col2=[2,4,6]

In [28]:
# Almacenamos las Series creadas en un diccionario
# Cada elemento del diccionario estará formado por un
# par clave:valor.
# Las claves de los elementos se corresponderán con las
# características o features (encabezados de las columnas),
# mientras que los valores representarán los datos de cada
# columna o serie.
dic = {'col1':col1,'col2':col2}

In [29]:
# Creamos el DataFrame
# Si no especificamos los índices (encabezados de las filas),
# se generarán índices autonuméricos.
df = pd.DataFrame(
    dic
)

In [30]:
# Mostramos el Dataframe
df

Unnamed: 0,col1,col2
0,1,2
1,3,4
2,5,6


In [31]:
# Si lo deseamos también podemos especificar los índices (encabezados de las filas)
df = pd.DataFrame(
    dic,
    index=['fila1', 'fila2', 'fila3'],
)

In [32]:
# Mostramos el Dataframe
df

Unnamed: 0,col1,col2
fila1,1,2
fila2,3,4
fila3,5,6


### Crear un Dataframe a partir de un fichero CSV

In [21]:
# Leemos el fichero CSV
df = pd.read_csv('datos.csv')

In [22]:
# Mostramos el Dataframe
df

Unnamed: 0.1,Unnamed: 0,col1,col2
0,fila1,1,2
1,fila2,3,4
2,fila3,5,6


In [23]:
# En el ejemplo anterior, pandas creó automáticamente
# índices autonuméricos.
# Si en el csv ya existe una columna con los índices,
# podemos especificarlo al crear el DataFrame:
df = pd.read_csv('datos.csv', index_col=[0])

In [24]:
# Mostramos el Dataframe
df

Unnamed: 0,col1,col2
fila1,1,2
fila2,3,4
fila3,5,6


### Crear un Dataframe a partir de un fichero JSON

In [25]:
# Por último, también es posible crear un DataFrame a partir
# de un fichero JSON.
# Leemos el fichero JSON:
df = pd.read_json('datos.json')

In [26]:
# Mostramos el Dataframe
df

Unnamed: 0,col1,col2
fila1,1,2
fila2,3,4
fila3,5,6
