# Sesión 2- Pandas

## Contenido 

1. [Unir datos](#unir)
2. [Visualización de datos](#vis)
3. [Series de tiempo](#time)
4. [Eliminando datos](#del)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

## 1. Unir datos 

Pandas proporciona varias funciones para combinar fácilmente Series o DataFrames con varios tipos de conjuntos lógicos.

In [None]:
info_1 = {
        'identificacion': ['1', '2', '3', '4', '5'],
        'primer_nombre': ['Eliana', 'Juan', 'Leonardo', 'Juan', 'Daniela'], 
        'apellido': ['Bonalde', 'Olmos', 'Lopez', 'Basto', 'Jaimes']}

info_2 = {
        'identificacion': ['4', '5', '6', '7', '8'],
        'primer_nombre': ['Maria', 'Brayan', 'Bran', 'Juan', 'Betty'], 
        'apellido': ['Ortega', 'Bermudez', 'Gutierrez', 'Barajas', 'González']}

info_3 = {
        'identificacion': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'nota': [51, 15, 25, 71, 16, 14, 15, 1, 61, 68]}

In [None]:
# Crear los 3 DataFrames con la información anterior


Un atajo útil para concat() son los métodos de instancia append() en Series y DataFrame.
Estos métodos en realidad son anteriores a concat(). Concatenan a lo largo del eje = 0.

In [None]:
# Unir los datos1 y datos2 por medio de append()


La función concat() hace todo el trabajo pesado de realizar operaciones de concatenación a lo largo de un eje mientras realiza una lógica de conjunto opcional (unión o intersección) de los índices (si los hay) en los otros ejes. 

In [None]:
personas = pd.concat([datos1, datos2])

In [None]:
personas_col = pd.concat([datos1, datos2], axis = 'columns')

In [None]:
personas_int = pd.concat([datos1, datos2], ignore_index=True)

In [None]:
personas_keys = pd.concat([datos1, datos2], axis = 0, keys =["Salón_1", "Salón_2"])

pandas proporciona la función merge(), como punto de entrada para todas las operaciones de unión de bases de datos estándar entre DataFrames:

In [None]:
pd.merge(personas, datos3, on='identificacion')

In [None]:
pd.merge(datos1, datos2, on='identificacion', how='inner')

In [None]:
pd.merge(datos1, datos2, on='identificacion', how='outer')

In [None]:
# Unir los datos 1 y los datos 2, en el valor "primer_nombre"


## 2. Visualización de datos

In [None]:
titanic = pd.read_csv('Data/train.csv')
titanic.head()

In [None]:
titanic.Sex.value_counts()

In [None]:
titanic.Embarked.value_counts()

In [None]:
titanic.Embarked.value_counts().plot(kind='pie')

In [None]:
masculino = (titanic['Sex'] == 'male').sum()
femenino = (titanic['Sex'] == 'female').sum()

proporcion = [masculino, femenino]

plt.pie(
    proporcion,
    
    labels = ['Hombres', 'Mujeres'],

    colors = ['blue','red'],
    
    explode = (0.15 , 0),
    
    startangle = 90,
    
    autopct = '%1.1f%%'
    )

plt.title("Proporción")

plt.tight_layout()
plt.show()

In [None]:
lm = sns.lmplot(x = 'Age', y = 'Fare', data = titanic, hue = 'Sex', fit_reg=False)

lm.set(title = 'Fare x Age')

axes = lm.axes
axes[0,0].set_ylim(-5,)
axes[0,0].set_xlim(-5,85)



In [None]:
sns.distplot(titanic.Fare)

In [None]:
titanic.Survived.sum()

## 3. Series temporales 

Una serie de tiempo es una serie de puntos de datos indexados (o listados o graficados) en orden de tiempo. Más comúnmente, una serie de tiempo es una secuencia tomada en puntos sucesivos igualmente espaciados en el tiempo. Es un método de conveniencia para conversión de frecuencia y remuestreo de series de tiempo. El objeto debe tener un índice similar a una fecha y hora.

pandas contiene amplias capacidades y características para trabajar con datos de series de tiempo para todos los dominios. Utilizando los tipos de dtypes datetime64 y timedelta64 de NumPy.

In [None]:
apple = pd.read_csv('Data/appl_1980_2014.csv')
apple

In [None]:
apple.dtypes

In [None]:
apple.Date = pd.to_datetime(apple.Date)

apple['Date'].head()

In [None]:
apple = apple.set_index('Date')

apple.head()

In [None]:
# Revisar si hay fechas duplicadas


In [None]:
apple.sort_index(ascending = True).head()

El remuestreo genera una distribución de muestreo única sobre la base de los datos reales. Podemos aplicar varias frecuencias para volver a muestrear nuestros datos de series de tiempo. 
Las frecuencias de series de tiempo más comúnmente utilizadas son: 
* W: frecuencia semanal
* M: frecuencia de fin de mes
* SM: frecuencia de fin de mes semestral 
* Q: frecuencia de un cuarto de final

In [None]:
# Se obtiene el último día hábil de cada mes
apple.month = apple.resample('M').last()
apple.month.head()

In [None]:
(apple.index.max() - apple.index.min()).days

In [None]:
# ¿Cuántos meses tienen los datos?


In [None]:
appl_open = apple['Adj Close'].plot(title = "Apple Stock")

fig = appl_open.get_figure()
fig.set_size_inches(13.5, 9)

## 4. Eliminando datos

In [None]:
wine =  pd.read_csv('Data/wine.data')
wine.head()

drop() elimina las etiquetas especificadas de filas o columnas.

Elimina filas o columnas especificando los nombres de las etiquetas y el eje correspondiente, o especificando directamente el índice o los nombres de las columnas. 

In [None]:
# Eliminar la primera, cuarta, séptima, novena, undécima, decimotercera y decimocuarta columnas
wine = wine.drop(wine.columns[[0,3,6,8,11,12,13]], axis = 1)

wine.head()

In [None]:
wine.columns = ['alcohol', 'malic_acid', 'alcalinity_of_ash', 'magnesium', 'flavanoids', 'proanthocyanins', 'hue']
wine.head()

In [None]:
# Se establece los valores de las primeras 3 filas de alcohol como NaN
wine.iloc[0:3, 0] = np.nan
wine.head()

In [None]:
# Establezca el valor de las filas 3 y 4 de magnesio como NaN 


In [None]:
wine = wine.dropna(axis = 0, how = "any")
wine.head()

A veces, el archivo csv tiene valores nulos, que luego se muestran como NaN en el marco de datos. Al igual que el método pandas dropna() administra y elimina valores nulos de un marco de datos, fillna() administra y permite que el usuario reemplace los valores NaN con algún valor propio.

In [None]:
wine.iloc[1:3, 0] = np.nan
wine.head()

In [None]:
# Se llena el valor de NaN con el número 10 en alcohol y 100 en magnesio
wine.alcohol.fillna(10, inplace = True)

wine.magnesium.fillna(100, inplace = True)

wine.head()

[Referencias](#refe)

## Ejercicio final

En el siguiente un dataset de los flujos de fondo de los Estados Unidos:
https://raw.githubusercontent.com/datasets/investor-flow-of-funds-us/master/data/weekly.csv.

* Convierta las fechas en un DatetimeIndex
* Cambie la frecuencia a mensual, sume los valores y asígnela ese valor a cada mes
* Eliminar las filas que obtuvieron valores Nan