# Introducción a Pandas

[Pandas](https://pandas.pydata.org/about/index.html) es una librería que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. 
* La estructura de datos principal es el DataFrame, que puede considerarse como una tabla 2D en memoria (como una hoja de cálculo, con nombres de columna y etiquetas de fila). 
* Muchas funciones disponibles en Excel están disponibles mediante programación, como crear tablas dinámicas, calcular columnas basadas en otras columnas, trazar gráficos, etc.
* Proporciona un alto rendimiento para manipular (unir, dividir, modificar…) grandes conjuntos de datos

## Import

In [1]:
import pandas as pd

## Estructuras de datos en Pandas

La librería Pandas, de manera genérica, contiene las siguientes estructuras de datos:
* **Series**: Array de una dimensión
* **DataFrame**: Se corresponde con una tabla de 2 dimensiones
* **Panel**: Similar a un diccionario de DataFrames

## Creación del objeto Series

In [2]:
# Creacion de un objeto Series
s = pd.Series([2,4,6,8,10])
s

0     2
1     4
2     6
3     8
4    10
dtype: int64

In [3]:
# Creación de un objeto Series inicializándolo con un diccionario de Python

altura = {"Santiago":187, "Pedro":178, "Julia":170, "Ana":165}
s = pd.Series(altura)
s


Santiago    187
Pedro       178
Julia       170
Ana         165
dtype: int64

In [4]:
# Creación de un objeto Series inicializándolo con algunos 
# de los elementos de un diccionario de Python

altura = {"Santiago":187, "Pedro":178, "Julia":170, "Ana":165}
s = pd.Series(altura, index=["Pedro", "Julia"])
s


Pedro    178
Julia    170
dtype: int64

In [5]:
# Creación de un objeto Series inicializandolo con un escalar

s = pd.Series(34,["test1","test2","test3"])
s


test1    34
test2    34
test3    34
dtype: int64

## Acceso a los elementos de un objeto Series

Cada elemento en un objeto Series tiene un identificador único que se denomina **_index label_**.

In [6]:
# Creación de un objeto Series
s = pd.Series([2,4,6,8], index=["num1","num2","num3","num4"])
s

num1    2
num2    4
num3    6
num4    8
dtype: int64

In [7]:
# Accediendo al tercer elemento del objeto
print(s["num3"])

6


In [8]:
# Tambien se puede acceder al elemento por posición
s[2]


6

In [9]:
# loc es la forma estándar de acceder a un elemento de un objeto Series por atributo
s.loc["num3"]

6

In [10]:
# iloc es la forma estándar de acceder a un elemento de un objeto Series por posición
s.iloc[2]

6

In [11]:
# Accediendo al segundo y tercer elemento por posición
s.iloc[2:4]

num3    6
num4    8
dtype: int64

## Operaciones aritméticas con Series

In [12]:
# Creacion de un objeto Series
s = pd.Series([2,4,6,8,10])
s

0     2
1     4
2     6
3     8
4    10
dtype: int64

In [14]:
# Los objeto Series son similares y compatibles con los Arrays de Numpy
import numpy as np
# Ufunc de Numpy para sumar los elementos de un Array

np.sum(s)


30

In [15]:
# El resto de operaciones aritméticas de Numpy sobre Arrays también son posibles
# Más información al respecto en la Introducción a Numpy
s * 2

0     4
1     8
2    12
3    16
4    20
dtype: int64

## Representación gráfica de un objeto Series

In [17]:
# Creación de un objeto Series denominado Temperaturas
temperaturas = [4.4, 5.1, 6.1, 6.2, 6.1, 6.1, 5.7, 5.2, 4.7, 4.1, 3.9]
s = pd.Series(temperaturas, name="Temperaturas")
s


0     4.4
1     5.1
2     6.1
3     6.2
4     6.1
5     6.1
6     5.7
7     5.2
8     4.7
9     4.1
10    3.9
Name: Temperaturas, dtype: float64

In [None]:
# Representación gráfica del objeto Series
%matplotlib inline
import matplotlib.pyplot as plt

s.plot()
plt.show()

## Creación de un objeto DataFrame

In [19]:
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}
personas

{'peso': Santiago    84
 Pedro       90
 Ana         56
 Julia       64
 dtype: int64,
 'altura': Santiago    187
 Pedro       178
 Julia       170
 Ana         165
 dtype: int64,
 'hijos': Pedro    2
 Julia    3
 dtype: int64}

Puede forzarse al DataFrame a que presente unas columnas determinadas y en un orden determinado

In [20]:
# Creación de un DataFrame inicializándolo con algunos elementos de un diccionario
# de objetos Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df


Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [22]:
# Creación de un DataFrame inicializándolo con una lista de listas de Python
# Importante: Deben especificarse las columnas e indices por separado
valores = [
    [185, 4, 76],
    [170, 0, 65],
    [190, 1, 89]
]

df =  pd.DataFrame(
    valores,
    columns= ["altura","hijos","peso"],               
    index= ["Pedro","Ana","Juan"])

df


Unnamed: 0,altura,hijos,peso
Pedro,185,4,76
Ana,170,0,65
Juan,190,1,89


In [None]:
# Creación de un DataFrame inicializándolo con un diccionario de Python
personas = {
    "altura": {"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}, 
    "peso": {"Santiago": 87, "Pedro": 78, "Julia": 70, "Ana": 65}}



## Acceso a los elementos de un DataFrame

In [3]:
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


### Acceso a los elementos de las columnas del DataFrame

In [None]:
# Pueden combinarse los metodos anteriores con expresiones booleanas


In [4]:
# Pueden combinarse los metodos anteriores con expresiones booleanas

df[(df["peso"]>60)&(df["altura"]>100)]


Unnamed: 0,peso,altura,hijos
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


### Acceso a los elementos de las filas del DataFrame

In [5]:
# Mostrar el DataFrame

df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [6]:
#podemos acceder con loc a filas 
df.loc["Pedro"]


peso       90.0
altura    178.0
hijos       2.0
Name: Pedro, dtype: float64

In [8]:
# con iloc accedemos al df con posicionamiento
df.iloc[3]

peso       84.0
altura    187.0
hijos       NaN
Name: Santiago, dtype: float64

In [10]:
# tambien podemos usar la particiones de posicionamiento 
df.iloc[1:3]

Unnamed: 0,peso,altura,hijos
Julia,64,170,3.0
Pedro,90,178,2.0


### Consulta avanzada de los elementos de un DataFrame

In [11]:
# Mostrar el DataFrame
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [14]:
# con la funcion QUERY podemos acceder a consultas tipo SQL
df.query("altura >= 178 and peso > 60")

Unnamed: 0,peso,altura,hijos
Pedro,90,178,2.0
Santiago,84,187,


## Copiar un DataFrame

In [17]:
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}


df


Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [18]:
# Copia del DataFrame df en df_copy

# Creación de una copia para hacer cambios, esto es una buena practica.
df_copy =  df.copy()  
df_copy
# Importante: Al modificar un elemento de df_copy no se modifica df


Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


## Modificación de un DataFrame

In [20]:
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [25]:
# Añadir una nueva columna al DataFrame

df["edad"] = [10, 20,30, 40]
df["cargo"]=["albañil, "]


Unnamed: 0,peso,altura,hijos,edad
Ana,56,165,,10
Julia,64,170,3.0,20
Pedro,90,178,2.0,30
Santiago,84,187,,40


In [None]:
# Añadir una nueva columna calculada al DataFrame


In [26]:
# Añadir una nueva columna creando un DataFrame nuevo

df_mod = df.assign(mascotas = [1,3,0,4])
df_mod


Unnamed: 0,peso,altura,hijos,edad,mascotas
Ana,56,165,,10,1
Julia,64,170,3.0,20,3
Pedro,90,178,2.0,30,0
Santiago,84,187,,40,4


In [27]:
# Eliminar una columna existente del DataFrame
del  df['peso']
df


Unnamed: 0,altura,hijos,edad
Ana,165,,10
Julia,170,3.0,20
Pedro,178,2.0,30
Santiago,187,,40


In [31]:
# Eliminar una columna existente devolviendo una copia del DataFrame resultante

df_mod = df.drop(["hijos"], axis=1)
df_mod

Unnamed: 0,altura,edad
Ana,165,10
Julia,170,20
Pedro,178,30
Santiago,187,40


## Evaluación de expresiones sobre un DataFrame

In [32]:
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}


df = pd.DataFrame(data=personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [35]:
# Evaluar una función sobre una columna del DataFrame

#con la funcion eval, se pueden evaluar funciones sobre una columna del DataFrame

df.eval("altura/2")


Ana         82.5
Julia       85.0
Pedro       89.0
Santiago    93.5
Name: altura, dtype: float64

In [36]:
# Asignar el valor resultante como una nueva columna, a partir de una funcion en especifico 

df.eval("media_altura = altura/2", inplace=True)
df


Unnamed: 0,peso,altura,hijos,media_altura
Ana,56,165,,82.5
Julia,64,170,3.0,85.0
Pedro,90,178,2.0,89.0
Santiago,84,187,,93.5


In [38]:
# Evaluar una función utilizando una variable local, se antepone @ al nombre de la variable


max_altura = 180
df.eval("altura > @max_altura")


Ana         False
Julia       False
Pedro       False
Santiago     True
Name: altura, dtype: bool

In [40]:
# Aplicar una función externa a una columna del DataFrame con apply, se le pasa la columna y con apply la funcion 

def func(x):
    return x + 2

df["peso"].apply(func)

Ana         58
Julia       66
Pedro       92
Santiago    86
Name: peso, dtype: int64

## Guardar y Cargar el DataFrame

In [42]:
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [46]:
# Guardar el DataFrame como CSV, HTML y JSON

#df.to_csv("df_personas.csv")
#df.to_html("df_personas.html") #ojo a este dato, me sirve para crear las tablas en HTML
df.to_json("df_personas.json")


In [47]:
# Cargar el DataFrame en Jupyter, le pasamos un archivo extrerno y lo vuelve DataFrame, puedes ser un excel
df2 = pd.read_csv("df_personas.csv")
df2

Unnamed: 0.1,Unnamed: 0,peso,altura,hijos
0,Ana,56,165,
1,Julia,64,170,3.0
2,Pedro,90,178,2.0
3,Santiago,84,187,


In [48]:
# Cargar el DataFrame con la primera columna correctamente asignada quitar el Unnamed

df2 = pd.read_csv("df_personas.csv", index_col=0)
df2

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [51]:
df3 = pd.read_excel("Listado-de-proveedores-y-contactos")
df3

FileNotFoundError: [Errno 2] No such file or directory: 'Listado-de-proveedores-y-contactos'