# Python de cero a experto
**Autor:** Luis Miguel de la Cruz Salas

<a href="https://github.com/luiggix/Python_cero_a_experto">Python de cero a experto</a> by Luis M. de la Cruz Salas is licensed under <a href="https://creativecommons.org/licenses/by-nc-nd/4.0?ref=chooser-v1">Attribution-NonCommercial-NoDerivatives 4.0 International</a>

# Pandas

- Pandas es "Python Data Analysis Library". El nombre proviene del término *Panel Data* que es un término econométrico para manejar conjuntos de datos multidimensionales.

- Pandas es una biblioteca que provee de herramientas de alto desempeño, fáciles de usar, para manejar estructuras de datos y para su análisis. 

- Pandas es un módulo que reúne las capacidades de Numpy, Scipy y Matplotlib.

- Véase https://pandas.pydata.org/ para más información.

- y en: https://vimeo.com/59324550




In [None]:
import numpy as np
import pandas as pd

## Series

- Las `Series` son arreglos unidimensionales indexados basados en los arreglos de Numpy.
- Pueden almacenar cualquier tipo de dato: int, floats, strings, Python objects, etc.
- Se pueden ver como una estructura de datos con dos arreglos: uno para los índices y otro para los objetos que contiene.

### Ejemplo

In [None]:
obj = pd.Series([3,6,9,12])
obj

In [None]:
obj.values # Objetos de la serie

In [None]:
obj.index # Índices de la serie

- Comparemos con los array de Numpy

In [None]:
x = np.array([3,6,9,12])
x

In [None]:
print(type(x))
print(type(obj.values))
print(type(obj.index))
print(type(obj))

- Podemos definir los índices como queramos:

In [None]:
monedas = pd.Series([10.0,5.0,2.0,1.0,0.5,0.2,0.1],
                 index=['Diez','Cinco','Dos','Un','cincuenta','veinte','diez'])
monedas

In [None]:
monedas['diez'] # Podemos acceder a los objetos de la Serie con el índice

In [None]:
print('{: .52f}'.format(monedas['diez']))

In [None]:
monedas[monedas > 0.3] # Podemos hacer operaciones más complicadas

In [None]:
'quarter' in monedas # Es posible preguntar si un índice está en la Serie

In [None]:
 0.1 in monedas.values  # Es posible preguntar si un objeto está en la Serie

# Transformación entre Series y tipos básicos de Python

In [None]:
# Es posible transformar la Serie en diferentes tipos

# Transformar la Serie en una cadena
monedas_cadena = monedas.to_string()
print(type(monedas_cadena))
monedas_cadena

In [None]:
print(monedas_cadena)

In [None]:
# Transformar la Serie a un diccionario:
monedas_dic = monedas.to_dict()
print(type(monedas_dic))
monedas_dic

In [None]:
# Podemos transformar un diccionario en una Serie.
pd.Series(monedas_dic)

In [None]:
# Podemos escribir la Serie a un archivo en formato csv
monedas.to_csv('MONEDAS.csv')

### Ejercicio
- Crear una serie con sus índices iguales a los nombres de las delegaciones de la Ciudad de México y sus valores el número de habitantes por delegación.

Delegación | Habitantes
-- | --
Azcapotzalco | 400 161
Coyoacán | 608 479
Cuajimalpa de Morelos | 199 224
Gustavo A. Madero | 1 164 477
Iztacalco | 390 348
Iztapalapa | 1 827 868
La Magdalena Contreras | 243 886
Milpa Alta | 137 927
Álvaro Obregón | 749 982
Tláhuac | 361 593
Tlalpan | 677 104
Xochimilco | 415 933
Benito Juárez | 417 416
Cuauhtémoc | 532 553
Miguel Hidalgo | 364 439
Venustiano Carranza | 427 263

- Calcular la suma total de habitantes
- Imprimir los nombres de las delegaciones con mayor y menor número de habitantes.
- Imprimir los nombres de las delegaciones con más de 400,000 habitantes

In [None]:
fdel = open('delegaciones.csv','r')
valor = []
indices = []
for line in fdel:
    sline = line.split(sep=",")
    indices.append(sline[0])
    valor.append(sline[1])

print(indices[1:])
print(valor[1:])

lista_delegacion = pd.Series(valor[1:],index=indices[1:])
lista_delegacion

In [None]:
fdel = pd.read_csv('delegaciones.csv')
serie_del = pd.Series(list(fdel.iloc[:,1]),index=list(fdel.iloc[:,0]))
serie_del

# Algunas operaciones con series

In [None]:
monedas_dic

In [None]:
# Podemos agregar índices a los originales
etiquetas = ['Diez','Cinco','quarter','Dos','Un','cincuenta','veinte','diez']
monedas_q = pd.Series(monedas_dic, index=etiquetas) # Hay un índice extra.
monedas_q

In [None]:
# Podemos verificar si hay datos faltantes (NaN)
pd.isnull(monedas_q['quarter'])    

In [None]:
pd.notnull(monedas_q['diez']) 

In [None]:
monedas

In [None]:
# Podemos sumar dos Series
monedas + monedas

In [None]:
print(len(monedas), len(monedas_q) )

In [None]:
# No importa que las series estén en desorden o tengas longitud diferente
# la suma es correcta!
monedas + monedas_q

In [None]:
# Podemos aplicar diferentes funciones a las series:
nombre = pd.Series(list('Luis Miguel de la Cruz Salas'))
nombre.unique() # Obtiene los elementos únicos

In [None]:
# Puede contar los objetos que hay en la Serie
nombre.value_counts()

In [None]:
# Podemos tener una serie con índices en desorden:
serie = pd.Series(range(5),index=['C','A','B','E','D'])
serie

In [None]:
# La serie se puede ordenar a través de los índices
serie.sort_index()

In [None]:
serie   # Ojo: el ordenamiento no se hizo "in place", es decir no se modificó la serie original

In [None]:
# Aquí creamos una nueva serie ordenada, pero la original prevalece
serie_ordenada = serie.sort_index()

In [None]:
serie_ordenada

In [None]:
serie

In [None]:
# Podemos ordenar la serie "in place", es decir se modifica la serie original
serie.sort_index(inplace=True)
serie

In [None]:
# Se puede ordenar la serie usando los objetos que contiene
serie.sort_values()

In [None]:
# Creamos otra serie con valores e índices desordenados
serie = pd.Series([7,5,2,8,3],index=['C','A','B','E','D'])
serie

In [None]:
# La siguiente función "rankea" las entradas de la serie de acuerdo al contenido de su objeto
serie.rank()

In [None]:
serie.rank(pct=True)

In [None]:
# Si ordenamos la serie que pasa ¿?:
serie.sort_values()

In [None]:
# Se pueden usar varias de las funciones de Numpy
serie + 3

In [None]:
serie**2

In [None]:
np.sin(serie)

### La función `apply`
```python
Series.apply(func, conver_dtype=True, args(), **kwds)
```
- La función `func` será aplicada a la serie y regresa un objeto de tipo Series o DataFrame.


In [None]:
s = serie.apply(np.sin)
print(type(s))
s

- Podemos usar funciones lambda

In [None]:
serie

In [None]:
serie.apply(lambda x: x if x > 5 else x**2)

### Filtrar o completar datos faltantes

In [None]:
monedas

In [None]:
monedas_q

In [None]:
monedas['penny'] = 150000
monedas
monedas + monedas_q

In [None]:
nueva_serie = monedas + monedas_q
nueva_serie

In [None]:
nueva_serie.dropna() # Desecha los NaN 

In [None]:
nueva_serie.fillna(3000) # Completa los NaN con 3000

## DataFrames

- La idea principal de los DaraFrames se basa en las hojas de cálculo.
- La estructura de un DataFrame son tablas similares a las hojas de cálculo.
- Contiene una colección ordenada de columnas.
- Cada columna consiste de un tipo de dato único.
- Pero, diferentes columnas pueden tener diferens tipos: la primera columna podría contener cadenas, la segunda flotantes, la tercera Boleanos, etc.
- También tiene una columna de índice: es como un diccionario de Series con un índice común.


In [None]:
# Mi primer DataFrame
dframe = pd.DataFrame(np.arange(12).reshape(4,3))

In [None]:
dframe

- En este ejemplo `dframe` se construye convirtiendo un arreglo multidimensional de **numpy** con la forma: 4 renglones X 3 columnas, en un objeto de tipo DataFrame, pre-llenado con los valores del 0 al 11. Los índices por omisión de los renglones van de 0 a 3 y los de las columnas de 0 a 2.  

In [None]:
type(dframe)

## Construir un DataFrame a partir de un diccionario

In [None]:
datos = {'Delegación':['Coyoacán','Tlalpan','Xochimilco'],
         'Población':[837000,3880000,8400000]}
delegaciones = pd.DataFrame(datos)
delegaciones

## Agregar una Serie a un DataFrame

In [None]:
IMECAS = pd.Series([90,100,120], index=[0,1,2])
print(IMECAS)
delegaciones['Cal. Aire'] = IMECAS
delegaciones

## Se puede leer información de archivos

In [None]:
df_pets = pd.read_table('pets.txt',sep=' ')
df_pets

## Leer un DataFrame de un sitio web

In [None]:
import webbrowser
website = 'http://en.wikipedia.org/wiki/NFL_win-loss_records'
webbrowser.open(website)

In [None]:
# Antes de ejecutar esta celda, seleccione los 10 primeros renglones
# de la tabla, incluyendo los títulos y copialos al clipboard, es decir
# teclear [Ctrl + c]

#-----------------------------------------------------------------------------
# Es probable que en Linux se obtenga un error. La forma de resolverlo es como sigue
#-----------------------------------------------------------------------------
#You may get an error message that says: “Pyperclip could not find a copy/paste mechanism for your system. Please see https://pyperclip.readthedocs.io/en/latest/introduction.html#not-implemented-error for how to fix this.”
#
#In order to work equally well on Windows, Mac, and Linux, Pyperclip uses various mechanisms to do this. Currently, this error should only appear on Linux (not Windows or Mac). You can fix this by installing one of the copy/paste mechanisms:
#
#    sudo apt-get install xsel to install the xsel utility.
#    sudo apt-get install xclip to install the xclip utility.
#    pip install gtk to install the gtk Python module.
#    pip install PyQt4 to install the PyQt4 Python module.
#-----------------------------------------------------------------------------
    
nfl_frame = pd.read_clipboard(engine='python')

In [None]:
# En caso de que lo anterior no funcione, 
# lea la información del archivo nfl_teams.txt
#nfl_frame = pd.read_table('nfl_teams.txt',sep='\t')

In [None]:
nfl_frame

In [None]:
type(nfl_frame)

In [None]:
nfl_frame.columns # Lista las columnas del DataFrame

In [None]:
nfl_frame['First NFL season '] # Imprime la columa que concide con "Total Games "

In [None]:
# Puedo crear un DataFrame eligiendo columnas de otro DataFrame
nuevo_DF = pd.DataFrame(nfl_frame,columns=['Team ','First NFL season ','Won '])
nuevo_DF

In [None]:
nfl_frame.head() # Los primeros 5 renglones

In [None]:
nfl_frame.head(3) # Los primeros 3 renglones

In [None]:
nfl_frame.tail(3) # Los últimos tres renglones

In [None]:
nfl_frame.iloc[3] # Antes se usaba ix[]

In [None]:
nfl_frame.iloc[[3, 6]]

In [None]:
nfl_frame.iloc[3:8]

In [None]:
nfl_frame.iloc[3:9]#.iloc[ [True, True, False, True, False, True] ]

In [None]:
nfl_frame.iloc[lambda x: x.index % 3 == 0]

In [None]:
nfl_frame.iloc[[0, 2, 5], [1, 3, 7]]

In [None]:
nfl_frame.iloc[2:5, 1:6:2]

In [None]:
nfl_frame.iloc[3:8:2, [True, False, True, False, False, True, True, True, False]]

In [None]:
nfl_frame.iloc[:5, lambda df: [0, 2]]

# Se pueden renombrar las columnas

In [None]:
dframe

In [None]:
dframe.rename(index={0:'a',1:'b',2:'c',3:'d'}, 
              columns={0:'col1',1:'col2', 2:'col3'}, inplace=True)

In [None]:
dframe

In [None]:
nfl_frame.head(2)

In [None]:
nfl_frame.rename(columns = {'Team ':'Equipo'}, inplace=True)

In [None]:
nfl_frame.head(2)

In [None]:
'Dallas Cowboys ' in nfl_frame.values

# Leyendo archivos CSV

In [None]:
dframe_wine = pd.read_csv('winequality-red.csv',sep=';') # Lectura de CSV

In [None]:
dframe_wine.head()

In [None]:
dframe_wine['alcohol'].mean() # Se puede calcular la media de una columna

In [None]:
dframe_wine

# Agrupación, agregación y funciones definidas por el usuario

In [None]:
df = pd.DataFrame({"A": [1, 1, 2, 2], "B": [1, 2, 3, 4],
                   "C": [0.362838, 0.227877, 1.267767, -0.562860],})

In [None]:
df

In [None]:
df.groupby('A')
df.describe()

In [None]:
df.groupby('A').agg('min')

In [None]:
df.groupby('A').agg('max')

In [None]:
df.groupby('A').mean()

In [None]:
wino = dframe_wine.groupby('quality') # Agrupa una serie
print(type(wino))                     # regresa un DataFrame agrupado
print(type(dframe_wine))

In [None]:
print(wino) # Solo muestra el tipo de objeto

In [None]:
wino.describe() # Muestra el DataFrame agrupado

- Obsérvese que la función groupby() también calcula algunos datos estadísticos y ordena el resultado por el nombre de la columna (orden alfabético).

In [None]:
wino.agg('mean') # También podemos aplicar una función ya definida en la biblioteca
                 # sum, min, max, std, count, ...

In [None]:
def difMaxMin(arr):
    """
    Calcula la diferencia entre el valor mínimo y máximo de un arreglo.
    """
    return arr.max() - arr.min()

In [None]:
wino.agg(difMaxMin) # Ahora aplicamos nuestra función

### Agregando una columna a nuestro DataFrame

In [None]:
dframe_wine.head()

In [None]:
# Agrega la columna realizando un cálculo entre valores de otras columnas
dframe_wine['qual/alc ratio'] = dframe_wine['quality'] / dframe_wine['alcohol']

In [None]:
dframe_wine.head()

In [None]:
dframe_wine.sort_values('alcohol',ascending = False,inplace=True)

In [None]:
dframe_wine.head() # recordemos como es el DataFrame original

In [None]:
dframe_wine['quality'].value_counts()

# Visualización

In [None]:
ts = pd.Series(np.random.randn(1000), 
               index=pd.date_range("1/1/2000", periods=1000))
ts

In [None]:
ts.plot()

In [None]:
ts = ts.cumsum()
ts.plot()

In [None]:
nfl_frame

In [None]:
nfl_frame.plot()

In [None]:
nfl_frame.plot(y='Lost ', x='Equipo')

In [None]:
nfl_frame.iloc[:,3].plot(kind='bar')

In [None]:
nfl_frame.plot(subplots=True)

In [None]:
import matplotlib.pyplot as plt
fig, axes = plt.subplots(nrows=2, ncols=2)
plt.subplots_adjust(wspace=0.2, hspace=0.5)
nfl_frame.iloc[:,3].plot(ax=axes[0, 0])
nfl_frame.iloc[:,4].plot(ax=axes[0, 1])
nfl_frame.iloc[:,5].plot(ax=axes[1, 0])
nfl_frame.iloc[:,6].plot(ax=axes[1, 1])

In [None]:
dframe_wine.plot()#kind='scatter',x='quality',y='alcohol')

In [None]:
dframe_wine.plot(kind='scatter',x='quality',y='alcohol')

In [None]:
df = pd.DataFrame(np.random.rand(10, 4), columns=["a", "b", "c", "d"])
df

In [None]:
df.plot.area()

In [None]:
df.plot.area(stacked=False, colormap='winter')

In [None]:
df.iloc[:,1:3].plot.pie(subplots=True,figsize=(10,4))

In [None]:
df.iloc[:,1:3].plot.pie(subplots=True,figsize=(10,4), 
                        labels=['A','B','C','D','E','F','G','H', 'I', 'J'], 
                        autopct="%.2f",fontsize=10)

In [None]:
from pandas.plotting import scatter_matrix
df = pd.DataFrame(np.random.randn(1000, 4), columns=["a", "b", "c", "d"])
df

In [None]:
scatter_matrix(df, alpha=0.5, figsize=(6, 6), diagonal="kde");

In [None]:
from pandas.plotting import parallel_coordinates, radviz, andrews_curves
iris_data = pd.read_csv("iris.data")
parallel_coordinates(iris_data, "Name");

In [None]:
radviz(iris_data, "Name");

In [None]:
andrews_curves(iris_data, "Name")

In [None]:
precio = pd.Series(np.random.randn(150).cumsum(), index=pd.date_range("2000-1-1", periods=150, freq="B"))
precio

In [None]:
ma = precio.rolling(20).mean()
mstd = precio.rolling(20).std()
print(ma)
print(mstd)

In [None]:
plt.plot(precio.index, precio, "k")
plt.plot(ma.index, ma, "b")
plt.fill_between(mstd.index, ma - 2 * mstd, ma + 2 * mstd, color="b", alpha=0.2)
plt.xticks(rotation=45)