# Introducción a Python

## El paquete Pandas

Pandas es un paquete de Python que permite optimizar la extracción, manipulación y análisis de datos. Pandas es un paquete potente y flexible para el científico de datos dado que utiliza los `ndarray` de numpy, vectorización de operaciones y se integra a otros paquetes de python para el análisis de datos.

In [2]:
from IPython.display import IFrame
IFrame('https://pandas.pydata.org/', width='100%', height=350)

Las siguientes notas fueron tomadas del tutorial *Python for Data Analysis-Pandas Lightning Tutorials, Alfred Essa* perteneciente a la serie [Pandas cookbook](https://notebook.community/alexjj/pancham/pdacookbook/PythonPandasCookbook5.1)

### Serie de datos

Para comenzar a trabajar en la exploración y análisis de datos con Pandas se requiere crear una **serie de datos**. Una serie de datos es un objeto que consiste de un conjunto de elementos del mismo o diferente tipo. Este objeto puede ser una lista, un array, o un diccionario.

In [7]:
# improtar pandas y nuympy
import pandas as pd
import numpy as np

Una vez importados los paquetes *pandas* y *numpy* utilizamos la función `Series()` del paquete Pandas para crear una serie de datos. `Series()` es el método básico para crear una Serie de datos:

`a = Series(data, index=index)`

**Ejemplo1:** Serie de datos con índices por default

In [8]:
# Construimos una serie de datos con base en 
# una lista de enteros
s1 = pd.Series([33, 19, 89, 11, -5, 9])


In [9]:
# Si no se especifica un índice en el conjunto de datos
# el constructor del objeto Series crea un índice por
# default como una lista consecutiva enteros
s1

0    33
1    19
2    89
3    11
4    -5
5     9
dtype: int64

In [10]:
# tipo de dato del objeto Series de pandas
type(s1)

pandas.core.series.Series

In [11]:
# recupera los valores de la serie
s1.values

array([33, 19, 89, 11, -5,  9])

In [12]:
# tipo de dato que contiene los valores de la serie
type(s1.values)

numpy.ndarray

In [13]:
# recupera los indices del array
s1.index

RangeIndex(start=0, stop=6, step=1)

In [14]:
# entendamos una serie como un mapeo de índices a valores
s1

0    33
1    19
2    89
3    11
4    -5
5     9
dtype: int64

**Ejemplo2:** Serie con índices que tienen valores específicos

In [37]:
# Se definen la serie de datos e índices
s_data =[32, 34, 36, 33, 32, 31, 30]
s_index = ['Lun', 'Mar', 'Mie', 'Jue', 'Vie','Sab','Dom']

In [38]:
# Se crean las series
s2 = pd.Series(s_data, index = s_index)

In [39]:
s2

Lun    32
Mar    34
Mie    36
Jue    33
Vie    32
Sab    31
Dom    30
dtype: int64

In [40]:
# verifica el índice
s2.index

Index(['Lun', 'Mar', 'Mie', 'Jue', 'Vie', 'Sab', 'Dom'], dtype='object')

In [41]:
# asigna etiquetas a la serie de datos y al índice.
s2.name = 'Temperatura Diaria'
s2.index.name = 'DiaSemana'

In [42]:
s2

DiaSemana
Lun    32
Mar    34
Mie    36
Jue    33
Vie    32
Sab    31
Dom    30
Name: Temperatura Diaria, dtype: int64

Los valores en una serie de datos son homogéneos. Python promociona (*cast*) los valores de una serie con distintos tipos al tipo de mayor capacidad.

In [43]:
# serie con datos no homogéneos
s_data = [32, 34.2, 36.3, 33.1, 32, 31, 30]

In [44]:
s3 = pd.Series(s_data, index = s_index)

In [45]:
# los datos son de tipo float
s3

Lun    32.0
Mar    34.2
Mie    36.3
Jue    33.1
Vie    32.0
Sab    31.0
Dom    30.0
dtype: float64

**Ejemplo 3:** Series a partir de diccionarios

In [50]:
temp_dict = {'Lun': 32, 'Mar': 34, 'Mie': 36, 'Jue': 33, 'Vie': 32, 'Sab': 31, 'Dom': 30}

In [51]:
s4 = pd.Series(temp_dict)

In [21]:
s4

Mon    33
Tue    19
Wed    15
Thu    89
Fri    11
Sat    -5
Sun     9
dtype: int64

La representación más general de una serie de datos por medio de un **diccionario** que es un arreglo ordenado de tuplas de la forma `key-value`
* La dupla llave-valor es un mapeo que asocia un índice o etiquea a un valor
* El orden de los datos no está garantizado.
* Los índices del pueden considerarse por *posición* (*offset*) o bien por *etiqueta* (*key*)

### Series como ndarray de numpy

In [52]:
# operaciones vectorizadas
s4

Lun    32
Mar    34
Mie    36
Jue    33
Vie    32
Sab    31
Dom    30
dtype: int64

In [53]:
s4 * 2

Lun    64
Mar    68
Mie    72
Jue    66
Vie    64
Sab    62
Dom    60
dtype: int64

In [54]:
np.log(s4)

Lun    3.465736
Mar    3.526361
Mie    3.583519
Jue    3.496508
Vie    3.465736
Sab    3.433987
Dom    3.401197
dtype: float64

> **NaN** (not a number): es el marcador por default que asigna pandas a un dato faltante o al resultado de una operación que no se ha podido llevar acabo sobre un valor 

In [56]:
# slice usando las etiquetas del índice
s4['Mar':'Vie']

Mar    34
Mie    36
Jue    33
Vie    32
dtype: int64

In [57]:
# slice usando posición
s4[1:3]

Mar    34
Mie    36
dtype: int64

In [58]:
# recupera valores usando el offset
s4[1]

34

In [60]:
# asignación de valores
s4[1] = 38

In [61]:
s4

Lun    32
Mar    38
Mie    36
Jue    33
Vie    32
Sab    31
Dom    30
dtype: int64

El objeto serie es una subclase de `ndarray` de numpy, por tanto dicho objeto tiene la mayoría de los métodos del `ndarray`.

In [30]:
s4

Mon     33
Tue    199
Wed     15
Thu     89
Fri     11
Sat     -5
Sun      9
dtype: int64

In [62]:
# la media de la serie de valores
s4.median() 

32.0

In [63]:
# máximo valor de la serie
s4.max()

38

In [64]:
# suma acumulada
s4.cumsum()

Lun     32
Mar     70
Mie    106
Jue    139
Vie    171
Sab    202
Dom    232
dtype: int64

El objeto serie no es iterable pero puede hacerse iterable por medio del la función `enumerate()` que devuelve un objeto iterable que contiene índice y valor.

In [65]:
# itera sobre los valores de la serie
# usando enumerate() devuelve un objeto iterable
for i,v in enumerate(s4):
    print (i, v)

0 32
1 38
2 36
3 33
4 32
5 31
6 30


**Ejemplo3**: Es posible crear una serie mediante una tipo especial de lista

In [72]:
# comprensión de listas puede usarse para crear valores para una serie
new_list = [x/2 for x in s4]
new_list

[16.0, 19.0, 18.0, 16.5, 16.0, 15.5, 15.0]

La [comprensión de listas](https://recursospython.com/guias-y-manuales/comprension-de-listas-y-otras-colecciones/) es una forma muy eficiente para generar valores dentro de una lista e iterar sobre estos valores. 

In [69]:
type(new_list)

list

In [70]:
s_index

['Lun', 'Mar', 'Mie', 'Jue', 'Vie', 'Sab', 'Dom']

In [75]:
s5 = pd.Series(new_list, index = s_index)

In [76]:
s5

Lun    16.0
Mar    19.0
Mie    18.0
Jue    16.5
Vie    16.0
Sab    15.5
Dom    15.0
dtype: float64

Los objetos `series` funcionan como un diccionario 

In [77]:
# la llave se encuentra en la lista
'Dom' in s5

True

In [79]:
# recupera un vloar usando llave o índice
s5['Mie']

18.0

In [81]:
s5['Lun']

16.0

In [85]:
# asiganación por medio de la llave
s5['Jue'] = 38

In [86]:
s5

Lun    16.0
Mar    19.0
Mie    18.0
Jue    38.0
Vie    16.0
Sab    15.5
Dom    15.0
dtype: float64

Otra forma de hacer iterable una serie es por medio del método `items()`

In [88]:
# itera sobre el diccionario por medio de llave y valores
for k,v in s4.items():
    print (k,v)

Lun 32
Mar 38
Mie 36
Jue 38
Vie 32
Sab 31
Dom 30
