---
Escuela de Ingeniería de Sistemas y Computación  
Universidad del Valle  
INTRODUCCIÓN A LA PROGRAMACIÓN PARA ANALÍTICA  
Profesor: Ph.D, Robinson Duque - robinson.duque@correounivalle.edu.co  
Última modificación: Julio de 2020

---

# Consideraciones:

Este material presenta textos y ejemplos orientados al propósito del curso de _Introducción a la Programación para Analítica_ de la Universidad del Valle.   Parte de los textos y ejemplos incluidos en este notebook de Introducción a Pandas fueron tomados y ajustados de los libros: 
* [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/index.html) de Jake VanderPlas disponible en GitHub. La obra está bajo una licencia CC-BY-NC-ND que permite: copiar y redistribuir el material, bajo la condicion de reconocer y dar crédito al autor original (Jake VanderPlas).

* [Manual de Python](https://aprendeconalf.es/python/manual/) de Alfredo Sánchez Alberca. La obra está bajo una licencia Atribución–No comercial–Compartir igual 4.0 Internacional de Creative Commons que permite: copiar y redistribuir el material en cualquier medio o formato, remezclar, transformar y construir a partir del material. 

Este material presenta cambios dirigidos hacia textos orientados a la versión 3.0 de Python, para lo cual se han incluido nuevos ejemplos y se proponen ejercicios para validar los conocimientos de los estudiantes orientados al propósito del curso de _Introducción a la Programación para Analítica_ de la Universidad del Valle.

---

# Vínculos de interés:

* [Guía de Usuario de Numpy](https://numpy.org/devdocs/user/quickstart.html )

* [Guía de Usuario de Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html)

* [Guía de Matplotlib](https://matplotlib.org/users/index.html)

* [Kaggle: Your Machine Learning and Data Science Community](https://www.kaggle.com)

---

## Algunos Métodos disponibles para Series
> * `s.count()` : Devuelve el número de elementos que no son nulos ni NaN en la serie `s`.
> * `s.sum()` : Devuelve la suma de los datos de la serie s cuando los datos son de un tipo numérico, o la concatenación de ellos cuando son del tipo cadena str.
> * `s.cumsum()` : Devuelve una serie con la suma acumulada de los datos de la serie `s` cuando los datos son de un tipo numérico.
> * `s.value_counts()` : Devuelve una serie con la frecuencia (número de repeticiones) de cada valor de la serie `s`.
> * `s.min()` : Devuelve el menor de los datos de la serie `s`.
> * `s.max()` : Devuelve el mayor de los datos de la serie `s`.
> * `s.mean()` : Devuelve la media de los datos de la serie `s` cuando los datos son de un tipo numérico.
> * `s.std()` : Devuelve la desviación típica de los datos de la serie `s` cuando los datos son de un tipo numérico.
> * `s.describe()`: Devuelve una serie con un resumen descriptivo que incluye el número de datos, su suma, el mínimo, el máximo, la media, la desviación típica y los cuartiles.
> * `s.sort_values(ascending=booleano)` : Devuelve la serie que resulta de ordenar los valores la serie `s`. Si el argumento del parámetro `ascending` es `True` el orden es creciente y si es `False` decreciente.
> * `s.sort_index(ascending=booleano)` : Devuelve la serie que resulta de ordenar el índice de la serie `s`. Si el argumento del parámetro ascending es `True` el orden es creciente y si es `False` decreciente.
> * `s.isna()`: Devuelve una serie booleana donde se verifica elemento a elemento si el valor es NaN
> * `s.notna()` : Devuelve una serie booleana donde se verifica elemento a elemento si el valor no es NaN:
> * `s.fillna(valor)` : Retorna una nueva serie donde se reemplazan valores faltantes con `valor`
> * `s.dropna()` : Retorna una nueva serie donde se eliminan valores NaN de la serie


In [None]:
import numpy as np


In [None]:
valores = pd.Series( np.random.randint(1,5,20) )
valores[5] = np.nan
valores[10] = None
valores

In [None]:
v = valores.value_counts()
print(v)

s = valores.sum()
print(s)

c = valores.count()
print(c)

d = valores.sort_values()
print(d)

In [None]:
valores.describe()

In [None]:
m = valores.isna() 
print(m)

In [None]:
valores.isna().sum() #Verificar el número de valores NaN

In [None]:
valores[m] # m puede usarse como máscara para filtrar valores

In [None]:
valores[~m] # m puede usarse como máscara para filtrar valores

In [None]:
valores[valores.notna()] #Otra forma de filtrar valores nulos o faltantes

In [None]:
v1 = valores.dropna()
print(valores)
print(v1)

In [None]:
v2 = valores.fillna(-1)
v3 = valores.fillna(method="ffill")
v4 = valores.fillna(method="bfill")
v5 = valores.fillna(valores.mean())
v6 = valores.fillna(valores.median())

print(valores)
print(v2)
#print(v3)
#print(v4)
#print(v5)
#print(v6)

> ### Operaciones
> Como Pandas está basado en Numpy, aplican las mismas funciones vectorizadas. Por ejemplo, los operadores binarios (+, *, /, etc.) pueden utilizarse con una serie, y devuelven otra serie con el resultado de aplicar la operación a cada elemento.

In [None]:
s = pd.Series([2,3,4,-9,3])

v = s*2
print(v)

In [None]:
print(s%2==1)

In [None]:
print((s**2+1)/3)

In [None]:
s = pd.Series(['a', 'b', 'c'])
s*3

> ### Filtrado de una Serie
> Para filtrar una serie y quedarse con los valores que cumplen una determinada condición se utiliza lo siguiente:
>
> * `s[condicion]` : Devuelve una serie con los elementos de la serie `s` que se corresponden con el valor True de la lista booleana `condicion`. condicion debe ser una lista de valores booleanos de la misma longitud que la serie.

In [None]:
# Recuerde que esto funciona porque los operadores lógicos retornan
# una serie booleana del mismo tamaño de la serie inicial (máscara)
s = pd.Series([2,3,4,-9,4, 6, 9])

s>2

In [None]:
s[s>2]

In [None]:
s[(s>=0)&(s%3==0)]

> ### Función `pd.apply`
> También es posible aplicar una función a cada elemento de la serie mediante el siguiente método:
> * `s.apply(f)` : Devuelve una serie con el resultado de aplicar la función `f` a cada uno de los elementos de la serie `s`.

In [None]:
import math
    
s = pd.Series([1, 2, 3, 4])
s.apply(math.log)

In [None]:
s = pd.Series(['Robinson', 'Viviana', 'Sarah', "Ronald"])

s.apply(str.upper)



#s.str.upper()

> Si la función que deseamos aplicar requiere del envío de algún parámetro, entonces podemos redefinirla, observa:

In [None]:
# Esta invocación genera un error, porque sólo se debe enviar el nombre de la función

#s.apply(str.startswith("R")) 

In [None]:
def comienzaCon(s):
    return s.startswith("R")

#s.apply(comienzaCon)
s.str.startswith("R")

In [None]:
s[s.apply(comienzaCon)]

#s[s.str.startswith("R")]

In [None]:
import math
import numpy as np

def funcionRara(s):
    return math.log(s) * (s**2) * np.sin(s)

In [None]:
s = pd.Series([1,2,3,4,5])
s.apply(funcionRara) 

In [None]:
def funcionMasRara(s):
    if (s % 2 == 0) or (s%5==0):
        return True
    else:
        return False

In [None]:
s = pd.Series([1,2,3,4,5])
s.apply(funcionMasRara)


In [None]:
def funcionFiltro(s):
    if s%2 == 0:
        return True
    elif s > 5:
        return True
    else :
        return False
        
v = pd.Series([2,4,6,3,5,7,9])

m=v.apply(funcionFiltro)

#True,True,True,False,False,True,True

In [None]:
v[~m]

---
# Pregunta en Socrative

1. Oculta aquí (MC).

<!--  
Cuál es el resultado de ejecutar:  

a = pd.Series([1,2,3,4,5])

print( a>3 )


a) [ 4 5 ]

b) [ 3 4 5 ]

c) Serie con valores [False False False True True] e índices en un rango (0,5,1)

d) Serie con valores [False False False True True] e índices en un rango (0,4,2)

e) error
-->

2. Oculta aquí (MC).

<!--  
Cuál es el resultado de ejecutar:  

a = pd.Series([1,2,3,4,5])

b = [3,4,5], indices [2,3,4]

print(b.cumsum())


a) [ 3 7 12 ]

b) 12

c) Serie con valores [3 7 12] e índices [0 1 2 3 4]

d) Serie con valores [3 7 12] e índices [0 1 2]

e) Serie con valores [3 7 12] e índices [2 3 4]
-->

3. Oculta aquí (MC).

<!--  
Cuál es el resultado de ejecutar:  

def filtro(x):
    return (x*2 < 8)

a = pd.Series([1,2,3,4,5])

print( a[ a.apply(filtro) ] )



a) Serie con valores [ 1 2 3 4 ]

b) Serie con valores [ 1 2 3 ]

c) Serie con valores [4 5]

d) Serie con valores [3 4 5]

e) Error
-->