---
Escuela de Ingeniería de Sistemas y Computación  
Universidad del Valle  
INTRODUCCIÓN A LA PROGRAMACIÓN PARA ANALÍTICA  
Profesor: Ph.D, Robinson Duque - robinson.duque@correounivalle.edu.co  
Última modificación: Julio de 2020

---

# Consideraciones:

Este material presenta textos y ejemplos orientados al propósito del curso de _Introducción a la Programación para Analítica_ de la Universidad del Valle.   Parte de los textos y ejemplos incluidos en este notebook de Introducción a Pandas fueron tomados y ajustados de los libros: 
* [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/index.html) de Jake VanderPlas disponible en GitHub. La obra está bajo una licencia CC-BY-NC-ND que permite: copiar y redistribuir el material, bajo la condicion de reconocer y dar crédito al autor original (Jake VanderPlas).

* [Manual de Python](https://aprendeconalf.es/python/manual/) de Alfredo Sánchez Alberca. La obra está bajo una licencia Atribución–No comercial–Compartir igual 4.0 Internacional de Creative Commons que permite: copiar y redistribuir el material en cualquier medio o formato, remezclar, transformar y construir a partir del material. 

Este material presenta cambios dirigidos hacia textos orientados a la versión 3.0 de Python, para lo cual se han incluido nuevos ejemplos y se proponen ejercicios para validar los conocimientos de los estudiantes orientados al propósito del curso de _Introducción a la Programación para Analítica_ de la Universidad del Valle.

---

# Vínculos de interés:

* [Guía de Usuario de Numpy](https://numpy.org/devdocs/user/quickstart.html )

* [Guía de Usuario de Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html)

* [Guía de Matplotlib](https://matplotlib.org/users/index.html)

* [Kaggle: Your Machine Learning and Data Science Community](https://www.kaggle.com)

---

# Algunos gráficos con matplotlib


> ### Creación de un Scatter Plot (Diagrama de dispersión)

In [None]:
import pandas as pd
import numpy as np

In [None]:
#Dataframe con precios del dolar
df = pd.read_csv("dolar.csv");
df.sort_values("Fechas",inplace=True);

df

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt #Importar el modulo pyplot


plt.figure(figsize=(10, 5));
plt.scatter(df["Fechas"],df["Valores"]);
plt.xticks(rotation=90);
plt.xlabel("Fechas");
plt.ylabel("Pesos ($)");
plt.title("Precio del dólar en Agosto 2020");
plt.show();

> ### Creación de un Lineplot (Diagrama de líneas)

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt #Importar el modulo pyplot

df.sort_values("Fechas",inplace=True);
plt.figure(figsize=(10, 5))
plt.plot(df["Fechas"],df["Valores"]);
plt.xticks(rotation=60);
plt.xlabel("Fechas");
plt.ylabel("Pesos ($)");
plt.title("Precio del dólar en Agosto 2020");
plt.gcf().set_size_inches(10, 4);
plt.show();


In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

df.sort_values("Fechas",inplace=True);
plt.figure(figsize=(10, 5))

plt.plot(df["Fechas"],df["Valores"], label="Valores");


plt.axhline(y=df["Valores"].mean(), label = "Promedio", color="blue")
plt.axhline(y=df["Valores"].median(), label = "Mediana", color ="red")



plt.xticks(rotation=60);
plt.xlabel("Fechas");
plt.ylabel("Pesos ($)");
plt.title("Precio del dólar en Agosto 2020");
plt.legend();



In [None]:
linear_data = np.array([1,2,3,4,5,6,7,8])
exponential_data = linear_data**2

plt.figure(figsize=(10, 5))
plt.plot(list(range(1,9)), linear_data, '-o', list(range(1,9)), exponential_data, '-o')
plt.xlabel('Some data')
plt.ylabel('Some other data')
plt.title('A title')
# add a legend with legend entries (because we didn't have labels when we plotted the data series)
plt.legend(['Linear data', 'exponential data'])


# fill the area between the linear data and exponential data
plt.fill_between(range(1, 9), 
                       linear_data, 
                       exponential_data, 
                       facecolor='blue', 
                       alpha=0.2);

> ### Creación de un Boxplot (Diagrama de cajas de bigotes)

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt #Importar el modulo pyplot


plt.figure(figsize=(8, 5))
plt.boxplot(df["Valores"]);
plt.title("Precio del dólar en Agosto 2020");

plt.savefig("diagrama.png");

> ### Creación de un Barchart (Gráfico de barras)

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt #Importar el modulo pyplot


plt.figure(figsize=(5, 5))
xvals = range(len(linear_data))
plt.bar(xvals, linear_data, width = 0.3)
plt.bar(xvals, exponential_data, width = 0.3, bottom=linear_data, color='r')

In [None]:
plt.figure(figsize=(4, 4))
xvals = range(len(linear_data))
plt.barh(xvals, linear_data, height = 0.3, color='b')
plt.barh(xvals, exponential_data, height = 0.3, left=linear_data, color='r')

> ### Creación de un Histograma

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt #Importar el modulo pyplot


plt.hist(df["Valores"]);
plt.title("Precio del dólar en Agosto 2020");
plt.show();

# Fundamentos sobre Subplots

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

plt.figure(figsize=(10, 5))
# subplot con 1 fila, 2 columnas, eje actual (1)
plt.subplot(1, 2, 1)

linear_data = np.array([1,2,3,4,5,6,7,8])
plt.plot(linear_data, '-o', label="Lineal");
plt.legend();

exponential_data = linear_data**2

# subplot con 1 fila, 2 columnas, eje actual (2)
plt.subplot(1, 2, 2)
plt.plot(exponential_data, '1', label="Exponencial", color="r");

plt.legend();
plt.show();

# Ver lista de marcadores y colores
# https://matplotlib.org/2.1.2/api/_as_gen/matplotlib.pyplot.plot.html

# Uso de plots para el análisis de datos - Pandas

In [None]:
import pandas as pd
import numpy as np
np.random.seed(123)

df = pd.DataFrame({'A': np.random.randn(365).cumsum(0), 
                   'B': np.random.randn(365).cumsum(0) + 20,
                   'C': np.random.randn(365).cumsum(0) - 20}, 
                  index=pd.date_range('1/1/2017', periods=365))
df.head()

In [None]:

%matplotlib inline

df.plot(); 

In [None]:

%matplotlib inline


df.plot('A','B', kind = 'scatter');

Se puede escoger entre las siguientes clases de plot:

`kind` :
- `'line'` : line plot (default)
- `'bar'` : vertical bar plot
- `'barh'` : horizontal bar plot
- `'hist'` : histogram
- `'box'` : boxplot
- `'kde'` : Kernel Density Estimation plot
- `'density'` : same as 'kde'
- `'area'` : area plot
- `'pie'` : pie plot
- `'scatter'` : scatter plot
- `'hexbin'` : hexbin plot

In [None]:

%matplotlib inline


# Crea un diagrma de dispersión de las columnas A y C
# con cambios de color (c) y tamaño (s) basado en la columna 'B'
df.plot.scatter('A', 'C', c='B', s=df['B'], colormap='viridis')

In [None]:
%matplotlib inline


df.plot.box()

In [None]:
%matplotlib inline


df.plot.hist(alpha=0.7, figsize=(4, 4));

[Iris flower data set](https://en.wikipedia.org/wiki/Iris_flower_data_set)

In [None]:
iris = pd.read_csv('iris.csv')
iris

In [None]:
%matplotlib inline


pd.plotting.scatter_matrix(iris, figsize=(10, 6));

Consulta las siguiente páginas para mayor detalle sobre opciones de visualización:
* https://pandas.pydata.org/docs/user_guide/visualization.html
* https://matplotlib.org