# El paquete Pandas

Pandas es un paquete de Python que permite optimizar la extracción, manipulación y análisis de datos. Pandas es un paquete potente y flexible para el el científico de datos dado que utiliza los `ndarray` de numpy, vectorización de operaciones y se integra a otros paquetes de python para el análisis de datos.

In [1]:
from IPython.display import IFrame
IFrame('https://pandas.pydata.org/', width='100%', height=350)

Las siguientes notas fueron tomadas del tutorial *Python for Data Analysis-Pandas Lightning Tutorials, Alfred Essa* perteneciente a la serie *Pandas cookbook*.

## Serie de datos

Para comenzar a trabajar en la exploración y análisis de datos con Pandas se requiere crear una **serie de datos**. Una serie de datos es un objeto que consiste de un conjunto de elementos del mismo o diferente tipo. Este objeto puede ser una lista, un array, o un diccionario.

In [2]:
# improtar pandas y nuympy
import pandas as pd
import numpy as np

Una vez importados los paquetes *pandas* y *numpy* utilizamos la función `Series()` del paquete Pandas para crear una serie de datos. `Series()` es el método básico para crear una Serie de datos:

`a = Series(data, index=index)`

**Ejemplo1:** Serie de datos con índices por default

In [3]:
# Construimos una serie de datos con base en 
# una lista de enteros
s1 = pd.Series([33, 19, 89, 11, -5, 9])


In [4]:
# Si no se especifica un índice en el conjunto de datos
# el constructor del objeto Series crea un índice por
# default como una lista consecutiva enteros
s1

0    33
1    19
2    89
3    11
4    -5
5     9
dtype: int64

In [5]:
# tipo de dato del objeto Series de pandas
type(s1)

pandas.core.series.Series

In [6]:
# recupera los valores de la serie
s1.values

array([33, 19, 89, 11, -5,  9])

In [7]:
# tipo de dato que contiene los valores de la serie
type(s1.values)

numpy.ndarray

In [8]:
# recupera los indices del array
s1.index

RangeIndex(start=0, stop=6, step=1)

In [9]:
# asociemos una serie como un mapeo de índices a valores
s1

0    33
1    19
2    89
3    11
4    -5
5     9
dtype: int64

**Ejemplo2:** Serie con índices que tienen valores específicos

In [10]:
# Se definen la serie de datos e índices
data1 =[33, 19, 15, 89, 11, -5, -9]
index1 = ['Mon', 'Tue', 'Wed', 'Thu', 'Fri','Sat','Sun']

In [11]:
# Se crean las series
s2 = pd.Series(data1, index = index1)

In [12]:
s2

Mon    33
Tue    19
Wed    15
Thu    89
Fri    11
Sat    -5
Sun    -9
dtype: int64

In [13]:
# verifica el índice
s2.index

Index(['Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun'], dtype='object')

In [14]:
# asigna etiquetas a la serie de datos y al índice.
s2.name = 'Daily Temperature'
s2.index.name = 'Weekday'

In [15]:
s2

Weekday
Mon    33
Tue    19
Wed    15
Thu    89
Fri    11
Sat    -5
Sun    -9
Name: Daily Temperature, dtype: int64

Los valores en una serie de datos son homogéneos. Python promociona (*cast*) los valores de una serie con distintos tipos al tipo de mayor capacidad.

In [16]:
# serie con datos no homogéneos
data2 = [33, 19.3, 15, 89, 11, -5, 9]

In [17]:
s3 = pd.Series(data2, index = index1)

In [18]:
# los datos son de tipo float
s3

Mon    33.0
Tue    19.3
Wed    15.0
Thu    89.0
Fri    11.0
Sat    -5.0
Sun     9.0
dtype: float64

**Ejemplo 3:** Series a partir de diccionarios

In [19]:
dict1 = {'Mon': 33, 'Tue': 19, 'Wed': 15, 'Thu': 89, 'Fri': 11, 'Sat': -5, 'Sun': 9}

In [20]:
s4 = pd.Series(dict1)

In [21]:
s4

Mon    33
Tue    19
Wed    15
Thu    89
Fri    11
Sat    -5
Sun     9
dtype: int64

La representación más general de una serie de datos por medio de un **diccionario** que es un arreglo ordenado de tuplas de la forma `key-value`
* La dupla llave-valor es un mapeo que asocia un índice o etiquea a un valor
* El orden de los datos no está garantizado.
* Los índices del pueden considerarse por *posición* (*offset*) o bien por *etiqueta* (*key*)

### Series como ndarray de numpy

In [22]:
# operaciones vectorizadas
s4

Mon    33
Tue    19
Wed    15
Thu    89
Fri    11
Sat    -5
Sun     9
dtype: int64

In [23]:
s4 * 2

Mon     66
Tue     38
Wed     30
Thu    178
Fri     22
Sat    -10
Sun     18
dtype: int64

In [24]:
np.log(s4)

  """Entry point for launching an IPython kernel.


Mon    3.496508
Tue    2.944439
Wed    2.708050
Thu    4.488636
Fri    2.397895
Sat         NaN
Sun    2.197225
dtype: float64

> **NaN** (not a number) es el marcador por default que asigna pandas a un dato faltante 

In [25]:
# slice usando las etiquetas del índice
s4['Thu':'Wed']

Series([], dtype: int64)

In [26]:
# slice usando posición
s4[1:3]

Tue    19
Wed    15
dtype: int64

In [27]:
# recupera valores usando el offset
s4[1]

19

In [28]:
# asignación de valores
s4[1] = 199

In [29]:
s4

Mon     33
Tue    199
Wed     15
Thu     89
Fri     11
Sat     -5
Sun      9
dtype: int64

El objeto serie es una subclase de ndarray de numpy, por tanto dicho objeto tiene la mayoría de los métodos del ndarray.

In [30]:
s4

Mon     33
Tue    199
Wed     15
Thu     89
Fri     11
Sat     -5
Sun      9
dtype: int64

In [31]:
# la media de la serie de valores
s4.median() 

15.0

In [32]:
# máximo valor de la serie
s4.max()

199

In [33]:
# suma acumulada
s4.cumsum()

Mon     33
Tue    232
Wed    247
Thu    336
Fri    347
Sat    342
Sun    351
dtype: int64

El objeto serie no es iterable pero puede hacerse iterable por medio del la función `enumerate()` que devuelve un objeto iterable que contiene índice y valor.

In [34]:
# itera sobre los valores de la serie
# usando enumerate() devuelve un objeto iterable
for i,v in enumerate(s4):
    print (i, v)

0 33
1 199
2 15
3 89
4 11
5 -5
6 9


In [35]:
# comprensión de listas puede usarse para crear una nueva lista
new_list = [x**2 for x in s4]
new_list

[1089, 39601, 225, 7921, 121, 25, 81]

In [36]:
type(new_list)

list

Las objeto serie funciona como un diccionario 

In [37]:
# la llave se encuentra en la lista
'Sun' in s4

True

In [38]:
s4['Tue']

199

In [39]:
# recupera un vloar usando llave o índice
s4['Wed']

15

In [40]:
# asiganación por medio de la llave
s4['Tue'] = 200

In [41]:
s4

Mon     33
Tue    200
Wed     15
Thu     89
Fri     11
Sat     -5
Sun      9
dtype: int64

Otra forma de hacer iterable una serie es por medio del método `iteritems()`

In [42]:
# itera sobre el diccionario por medio de llave y valores
for k,v in s4.iteritems():
    print (k,v)

Mon 33
Tue 200
Wed 15
Thu 89
Fri 11
Sat -5
Sun 9


## DataFrames


Pandas permite crear el objeto **DataFrame** que es un arreglo bidimensional con renglones y columnas etiquetadas e indexadas.
* Los datos del array pueden ser de tipo: entero, cadena, números de punto flotante, objetos de Python, etc.
* Los datos contenidos en cada columna son homogéneos
* Por default Pandas crea un índice numérico para los renglones en la sequencia 0,...,n

![](./dataFrame)

Adicionalmente, cualquier columna puede utilizarse como índice de los datos.

In [43]:
import pandas as pd
import datetime

In [44]:
# crea una lista que contiene fechas 01/12 al 07/12 del 2018
ini = datetime.datetime(2018,12,1)
end = datetime.datetime(2018,12,8)
step = datetime.timedelta(days=1)
dates = []

In [45]:
ini

datetime.datetime(2018, 12, 1, 0, 0)

In [46]:
end

datetime.datetime(2018, 12, 8, 0, 0)

In [47]:
# populate the list
while ini < end:
    dates.append(ini.strftime('%m-%d'))
    ini += step

In [48]:
dates

['12-01', '12-02', '12-03', '12-04', '12-05', '12-06', '12-07']

In [49]:
# crea un diccionario
dates_dic = {'Date': dates, 'Tokyo':[15, 19, 15, 11, 9, 8, 13], 
     'Paris': [-2, 0, 2, 5, 7, -5, -3], 
     'Mumbai': [20, 18, 23, 19, 25, 27, 23]}

In [50]:
dates_dic

{'Date': ['12-01', '12-02', '12-03', '12-04', '12-05', '12-06', '12-07'],
 'Tokyo': [15, 19, 15, 11, 9, 8, 13],
 'Paris': [-2, 0, 2, 5, 7, -5, -3],
 'Mumbai': [20, 18, 23, 19, 25, 27, 23]}

**Ejemplo 4:** Crear un objeto DataFrame desde un Diccionario de Python con listas de igual longitud

In [51]:
temps = pd.DataFrame(dates_dic)
temps

Unnamed: 0,Date,Tokyo,Paris,Mumbai
0,12-01,15,-2,20
1,12-02,19,0,18
2,12-03,15,2,23
3,12-04,11,5,19
4,12-05,9,7,25
5,12-06,8,-5,27
6,12-07,13,-3,23


In [52]:
temps.Mumbai

0    20
1    18
2    23
3    19
4    25
5    27
6    23
Name: Mumbai, dtype: int64

In [53]:
temps['Mumbai']

0    20
1    18
2    23
3    19
4    25
5    27
6    23
Name: Mumbai, dtype: int64

In [54]:
type(temps['Mumbai'])

pandas.core.series.Series

In [55]:
ntemp = temps['Mumbai']

In [56]:
ntemp

0    20
1    18
2    23
3    19
4    25
5    27
6    23
Name: Mumbai, dtype: int64

In [57]:
temps

Unnamed: 0,Date,Tokyo,Paris,Mumbai
0,12-01,15,-2,20
1,12-02,19,0,18
2,12-03,15,2,23
3,12-04,11,5,19
4,12-05,9,7,25
5,12-06,8,-5,27
6,12-07,13,-3,23


In [58]:
temps = temps.set_index('Date')
temps

Unnamed: 0_level_0,Tokyo,Paris,Mumbai
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12-01,15,-2,20
12-02,19,0,18
12-03,15,2,23
12-04,11,5,19
12-05,9,7,25
12-06,8,-5,27
12-07,13,-3,23


**Ejemplo 5:** Crear un objeto DataFrame con base en un archivo .csv

In [59]:
titanic = pd.read_csv('titanic.csv')

In [62]:
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [64]:
titanic.tail(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [65]:
titanic.Sex.value_counts()

male      577
female    314
Name: Sex, dtype: int64

In [66]:
titanic.Survived.value_counts()

0    549
1    342
Name: Survived, dtype: int64

In [67]:
titanic.Pclass.value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64