# Pandas
Es de las librerias mas populares en Python para el manejo de Data Frames y Series.  Pandas permite trabajar con datos homogenes por medio de los índices. 

In [1]:
# librerias
import pandas as pd


In [2]:
# Vamos a cambiar la cantidad de decimales agregando 
pd.set_option("display.precision",1)

In [3]:
tiempo_web = pd.Series([160,256,98,108])
tiempo_web

0    160
1    256
2     98
3    108
dtype: int64

In [4]:
# Una serie constante
pd.Series(3.1416,range(5))

0    3.1
1    3.1
2    3.1
3    3.1
4    3.1
dtype: float64

In [5]:
# Accesar a un índice.
tiempo_web[2]

98

## Métodos básicos de las series
Funciones
- count()
- mean()
- min()
- max()
- std()
Y otra función que da las estadísticas descriptivas.
- describe()

In [6]:
tiempo_web.describe()

count      4.0
mean     155.5
std       72.3
min       98.0
25%      105.5
50%      134.0
75%      184.0
max      256.0
dtype: float64

In [7]:
# Se pueden tener control sobre el nombre de los índices
tiempo_web=pd.Series([160,256,98,108], index= ['Laura','Daniel','Alberto','Eva'])
tiempo_web

Laura      160
Daniel     256
Alberto     98
Eva        108
dtype: int64

In [8]:
# Con diccionarios
tiempo_web = pd.Series({'Laura':160,'Daniel':256, 'Alberto':98,'Eva':108})
tiempo_web

Laura      160
Daniel     256
Alberto     98
Eva        108
dtype: int64

In [9]:
# Llamar elemtos mediante corchetes y nombres personalizados
tiempo_web['Eva']

108

Cuando los índices son cadenas, Pandas añade los identificadores a los atributos de Series, de
manera que es posible llamar a los elementos con la siguiente notación.

In [10]:
tiempo_web.Alberto

98

Otros atributos de *Series* son
- dato(dtype),
- los valores(values) y
- los índices(index)

In [11]:
tiempo_web.dtype

dtype('int64')

In [12]:
tiempo_web.values

array([160, 256,  98, 108], dtype=int64)

In [13]:
tiempo_web.index

Index(['Laura', 'Daniel', 'Alberto', 'Eva'], dtype='object')

Si un arreglo tipo *Series*, es una string, puedes utilizar los atributos de la cadena, invocando a los métodos para strings de Python.

In [14]:
ingredientes = pd.Series(['Leche','Mantequilla','Harina','Azúcar'])
ingredientes

0          Leche
1    Mantequilla
2         Harina
3         Azúcar
dtype: object

Para verificar si alguna letra está contenida en alguno de los elementos, el método contain para
cadenas puede realizar esta tarea

In [15]:
ingredientes.str.contains('a')

0    False
1     True
2     True
3     True
dtype: bool

## Dataframes

Un *DataFrame* es un arreglo de bidimensional, cada columna del DataFrame es un arreglo tipo *Series* . Por lo tanto se puede pensar a un data frame como una serie de dos dimensiones y todos los atributos de Series son aplicables a los DataFrame.

In [16]:
reg_peso = {'Vanesa':[68,67,66,65],'Kevin':[89,89,90,88],'Fernanda':[59,60,60,62],'Patricia':[70,68,67,65]}
peso = pd.DataFrame(reg_peso)
peso

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
0,68,89,59,70
1,67,89,60,68
2,66,90,60,67
3,65,88,62,65


In [17]:
peso.index = ['Mes 1','Mes 2','Mes 3','Mes 4']
peso

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
Mes 1,68,89,59,70
Mes 2,67,89,60,68
Mes 3,66,90,60,67
Mes 4,65,88,62,65


In [18]:
# Extracción de datos por indices
peso['Fernanda']

Mes 1    59
Mes 2    60
Mes 3    60
Mes 4    62
Name: Fernanda, dtype: int64

In [19]:
# extracción de datos con indice tipo string
peso.Patricia

Mes 1    70
Mes 2    68
Mes 3    67
Mes 4    65
Name: Patricia, dtype: int64

Para acceder a una fila se usa `loc`

In [20]:
peso.loc['Mes 1']

Vanesa      68
Kevin       89
Fernanda    59
Patricia    70
Name: Mes 1, dtype: int64

También es posible acceder a las filas por indices a través de índices mediante `iloc`. La diferencia con `loc` es que este es exclusivo con nombres personalizados e `iloc` para indices por numeros. 

In [21]:
peso.iloc[1]

Vanesa      67
Kevin       89
Fernanda    60
Patricia    68
Name: Mes 2, dtype: int64

In [22]:
# parte del arreglo, pedimos filas como una lista
peso.loc['Mes 1':'Mes 3']

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
Mes 1,68,89,59,70
Mes 2,67,89,60,68
Mes 3,66,90,60,67


In [23]:
# Indices especìficos
peso.loc[['Mes 1','Mes 3']]

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
Mes 1,68,89,59,70
Mes 3,66,90,60,67


In [24]:
# Indices numericos
peso.iloc[[0, 2]]

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
Mes 1,68,89,59,70
Mes 3,66,90,60,67


In [25]:
# Con columnas y filas especificas por nombres
peso.loc['Mes 2':'Mes 3',['Vanesa','Patricia']]

Unnamed: 0,Vanesa,Patricia
Mes 2,67,68
Mes 3,66,67


In [26]:
# Columnas  y filas especificas por indice numérico
peso.iloc[[0, 2], 0:3]

Unnamed: 0,Vanesa,Kevin,Fernanda
Mes 1,68,89,59
Mes 3,66,90,60


In [27]:
# Podemos poner condicionales para hacer las busquedas
peso[peso>=70]

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
Mes 1,,89,,70.0
Mes 2,,89,,
Mes 3,,90,,
Mes 4,,88,,


In [28]:
# Combinar operadores condicionales
peso[(peso>65)&(peso<80)]

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
Mes 1,68.0,,,70.0
Mes 2,67.0,,,68.0
Mes 3,66.0,,,67.0
Mes 4,,,,


Los atributos `at()` e `iat()` permiten llamar a un valor con argumentos`(fila,columna)`. Como antes, `at` índices personalizados e `iat` utiliza los índices numéricos. Pero ahora estos atributos nos permiten modificar los valores del data frame.

In [29]:
# Cambiar valores, fila columna
peso.at['Mes 4','Kevin']=85

In [30]:
peso

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
Mes 1,68,89,59,70
Mes 2,67,89,60,68
Mes 3,66,90,60,67
Mes 4,65,85,62,65


In [31]:
# En este caso es mes dos y columna Fernanda
peso.iat[1,2]=59

In [32]:
peso

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
Mes 1,68,89,59,70
Mes 2,67,89,59,68
Mes 3,66,90,60,67
Mes 4,65,85,62,65


In [33]:
# Estadísticas del data frame
peso.describe()

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
count,4.0,4.0,4.0,4.0
mean,66.5,88.2,60.0,67.5
std,1.3,2.2,1.4,2.1
min,65.0,85.0,59.0,65.0
25%,65.8,88.0,59.0,66.5
50%,66.5,89.0,59.5,67.5
75%,67.2,89.2,60.5,68.5
max,68.0,90.0,62.0,70.0


In [34]:
peso.describe()

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
count,4.0,4.0,4.0,4.0
mean,66.5,88.2,60.0,67.5
std,1.3,2.2,1.4,2.1
min,65.0,85.0,59.0,65.0
25%,65.8,88.0,59.0,66.5
50%,66.5,89.0,59.5,67.5
75%,67.2,89.2,60.5,68.5
max,68.0,90.0,62.0,70.0


Hacemos las funciones por columnas 

In [35]:
peso.mean()

Vanesa      66.5
Kevin       88.2
Fernanda    60.0
Patricia    67.5
dtype: float64

Para hacerlas por filas podemos transponer el data frame

In [36]:
peso.T

Unnamed: 0,Mes 1,Mes 2,Mes 3,Mes 4
Vanesa,68,67,66,65
Kevin,89,89,90,85
Fernanda,59,59,60,62
Patricia,70,68,67,65


In [37]:
# Estadísticos por mes
peso.T.describe()

Unnamed: 0,Mes 1,Mes 2,Mes 3,Mes 4
count,4.0,4.0,4.0,4.0
mean,71.5,70.8,70.8,69.2
std,12.6,12.8,13.2,10.6
min,59.0,59.0,60.0,62.0
25%,65.8,65.0,64.5,64.2
50%,69.0,67.5,66.5,65.0
75%,74.8,73.2,72.8,70.0
max,89.0,89.0,90.0,85.0


In [38]:
# Ahora tenemos los promedios por mes
peso.T.mean()

Mes 1    71.5
Mes 2    70.8
Mes 3    70.8
Mes 4    69.2
dtype: float64

Podemos pedir el orden el inverso en los indices. Tanto en las columnas como en las filas con `sort_index`, para filas con el argumento `ascendig = False`, para columnas con `axis = 1`.

In [39]:
peso.sort_index(ascending=False)

Unnamed: 0,Vanesa,Kevin,Fernanda,Patricia
Mes 4,65,85,62,65
Mes 3,66,90,60,67
Mes 2,67,89,59,68
Mes 1,68,89,59,70


In [40]:
# Para el el caso de las columnas 
peso.sort_index(axis=1)

Unnamed: 0,Fernanda,Kevin,Patricia,Vanesa
Mes 1,59,89,70,68
Mes 2,59,89,68,67
Mes 3,60,90,67,66
Mes 4,62,85,65,65


In [41]:
# Por fila especifica
peso.loc["Mes 1"].sort_values(ascending = False)

Kevin       89
Patricia    70
Vanesa      68
Fernanda    59
Name: Mes 1, dtype: int64

In [42]:
peso.sort_values(by='Mes 1', axis=1,ascending=False)

Unnamed: 0,Kevin,Patricia,Vanesa,Fernanda
Mes 1,89,70,68,59
Mes 2,89,68,67,59
Mes 3,90,67,66,60
Mes 4,85,65,65,62


In [43]:
peso.T.sort_values('Mes 1',ascending=False)

Unnamed: 0,Mes 1,Mes 2,Mes 3,Mes 4
Kevin,89,89,90,85
Patricia,70,68,67,65
Vanesa,68,67,66,65
Fernanda,59,59,60,62


In [44]:
peso.loc['Mes 1'].sort_values(ascending=False)

Kevin       89
Patricia    70
Vanesa      68
Fernanda    59
Name: Mes 1, dtype: int64