## Pandas

Diseñada para el análisis y manipulación de datos, ideal para trabajar con datos estructurados (tabulares, SQL, series temporales) de manera rápida y flexible

In [118]:
import pandas as pd
import numpy as np

Los dos objetos mas importantes en pandas son las series y los dataframes.

Las series son estructuras de unidimensionales. Están construidas sobre un numpy array

In [119]:
array_data = np.array([2, 2, 4, 5, 6, 10])
s = pd.Series(array_data)
s

0     2
1     2
2     4
3     5
4     6
5    10
dtype: int64

Tienen un campo **index**,con el cual se accede a la información, y **values**, la información en sí. 

In [120]:
display(s.index, s.values)

RangeIndex(start=0, stop=6, step=1)

array([ 2,  2,  4,  5,  6, 10])

Se pueden realizar operaciones lógicas y matemáticas utilizandolas como si fueran listas.

In [121]:
s + 2 * s

0     6
1     6
2    12
3    15
4    18
5    30
dtype: int64

In [122]:
s > 2

0    False
1    False
2     True
3     True
4     True
5     True
dtype: bool

Y además, se pueden filtrar sus valores utilizando operaciones lógicas.

In [123]:
s[(s > 2) & (s < 6)]

2    4
3    5
dtype: int64

Los dataframes son estructuras de dos dimensiones, con tamaño mutable y con tipos heterogeneos. Es lo que conocemos como tabla.

Esta estructura está compuesta de varias series que comparten índice y poseen un nombre de columna cada una

In [124]:
array_data = np.array([[1,2], [3,4], [5,6]])
df = pd.DataFrame(array_data, columns=["a", "b"])
df

Unnamed: 0,a,b
0,1,2
1,3,4
2,5,6


Además del index y values, podemos acceder al atributo **columns**, el cual distingue las series que componen al dataframe

In [125]:
display(df.columns, df.index, df.values)

Index(['a', 'b'], dtype='object')

RangeIndex(start=0, stop=3, step=1)

array([[1, 2],
       [3, 4],
       [5, 6]])

## Estadística descriptivas

Podemos obtener estadísticas mas avanzadas que con numpy arrays

Parimos por las medias y desviaciones estandar

In [126]:
display(df.mean(axis = 0), df.mean(axis = 1)) #Medias por columnas y por filas

a    3.0
b    4.0
dtype: float64

0    1.5
1    3.5
2    5.5
dtype: float64

In [127]:
display(df.std(axis = 0), df.std(axis = 1)) #Std por columnas y por filas

a    2.0
b    2.0
dtype: float64

0    0.707107
1    0.707107
2    0.707107
dtype: float64

Podemos ir un paso mas allá, y obtener un resumen de las métricas descriptivas

In [128]:
df.describe()

Unnamed: 0,a,b
count,3.0,3.0
mean,3.0,4.0
std,2.0,2.0
min,1.0,2.0
25%,2.0,3.0
50%,3.0,4.0
75%,4.0,5.0
max,5.0,6.0


Y otras mas avanzadas como la correlación y la covarianza

In [129]:
df.corr()

Unnamed: 0,a,b
a,1.0,1.0
b,1.0,1.0


In [130]:
df.cov()

Unnamed: 0,a,b
a,4.0,4.0
b,4.0,4.0


## Manipulación de datos

Pandas también ofrece funciones para la manipulación e ingeniería de datos.

In [131]:
array_data = np.array([[1,2,3], [4,5,6], [7,np.nan,9]])
df = pd.DataFrame(array_data, columns=["a", "b", "c"])
df

Unnamed: 0,a,b,c
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,7.0,,9.0


Podemos borrar o seleccionar columnas en particular

In [132]:
df.drop(columns = "a")

Unnamed: 0,b,c
0,2.0,3.0
1,5.0,6.0
2,,9.0


Vamos a averiguar si en nuestro dataframe hay datos nulos

In [133]:
df.isna()

Unnamed: 0,a,b,c
0,False,False,False
1,False,False,False
2,False,True,False


Podemos borrar las filas que contengan datos nulos

In [134]:
df.dropna()

Unnamed: 0,a,b,c
0,1.0,2.0,3.0
1,4.0,5.0,6.0


O también las columnas que contengan datos nulos

In [135]:
df.dropna(axis = 1)

Unnamed: 0,a,c
0,1.0,3.0
1,4.0,6.0
2,7.0,9.0


Podemos rellenar los datos faltantes con 0s u otro valor

In [136]:
df.fillna(0)

Unnamed: 0,a,b,c
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,7.0,0.0,9.0


Realizar operaciones entre columnas

In [137]:
df["d"] = df["a"] + df["b"]
df

Unnamed: 0,a,b,c,d
0,1.0,2.0,3.0,3.0
1,4.0,5.0,6.0,9.0
2,7.0,,9.0,


In [138]:
df = df.drop(columns = "d")
df

Unnamed: 0,a,b,c
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,7.0,,9.0


Además, podemos hacer joins SQL utilizando merge

In [139]:
array_data = np.array([[1,8,7], [4,4,2], [8,10,5]])
df2 = pd.DataFrame(array_data, columns=["a", "d", "e"])
df2

Unnamed: 0,a,d,e
0,1,8,7
1,4,4,2
2,8,10,5


Inner join

In [140]:
df2.merge(df, on = "a")

Unnamed: 0,a,d,e,b,c
0,1,8,7,2.0,3.0
1,4,4,2,5.0,6.0


Left join y right join.

In [141]:
display(df2.merge(df, on = "a", how="left"), df2.merge(df, on = "a", how="right"))

Unnamed: 0,a,d,e,b,c
0,1,8,7,2.0,3.0
1,4,4,2,5.0,6.0
2,8,10,5,,


Unnamed: 0,a,d,e,b,c
0,1.0,8.0,7.0,2.0,3.0
1,4.0,4.0,2.0,5.0,6.0
2,7.0,,,,9.0
