# 1. Análisis de datos con Pandas

 La librería Pandas desarrollada para el análisis. Fue desarrollada en NumPy. La librería Pandas trae la riqueza de R al mundo de Python. Tiene eficiente estructuras de datos para procesar los datos, unir datos y leerlos de varias fuentes.


## 1.1. Series

In [None]:
# Importar la librería Pandas desde Python.
import pandas as pd
import numpy as np

In [None]:
##Generar un número aleatorio entero entre 1 y 100
np.random.randint(1,100)

In [None]:
##La forma más clásica de generar un número aleatorio es entre 0 y 1 (con decimales)
np.random.random()

In [None]:
np.random.seed(2018)

In [None]:
# Creación de una serie a partir de 5 números aleatorios.
pd.Series(np.random.randn(5))

In [None]:
pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])

## 1.2. Data Frames

In [None]:
# Data Frames que provienen de diccionarios de series.
d = {'c1': pd.Series(['A', 'B', 'C']),'c2': pd.Series([1., 2., 3., 4.])}
df = pd.DataFrame(d)
df

In [None]:
# Data Frames que provienen de diccionarios de listas.
d = {'c1': ['A', 'B', 'C', 'D'],'c2': [1.0, 2.0, 3.0, 4.0]}
df = pd.DataFrame(d)
df

## 1.3. Panel

In [None]:
d = {'Item1': pd.DataFrame(np.random.randn(4, 3)),'Item2': pd.DataFrame(np.random.randn(4, 2))}
pd.Panel(d)
d

# 2. Carga de bases de datos

## 2.1. Importar y exportar datos en formato csv

In [None]:
# Importar datos en formato csv.
d = pd.read_csv('C:/Users/pc/PythonHJB/student/students.csv')
d

In [None]:
# Leer los primeros registros
d.head(4)

In [None]:
d.tail(4)

In [None]:
d.shape

In [None]:
d[0:5]['AREA NAME']

### a) Operaciones con cadenas (string)

In [None]:
# Importar un archivo csv y leer los 5 primeros casos.
d['AREA NAME'][0:5]

In [None]:
# Extraer las tres primeras palabras de los 5 primeros casos.
d['AREA NAME'][0:5].str.extract('(\w+)\s(\w+)\s(\w+)')

In [None]:
# Convertir a mayúsculas.
d['AREA NAME'][0:5].str.upper()

In [None]:
# Convertir a minúsculas.
d['AREA NAME'][0:5].str.lower()

In [None]:
# Cuantificar la cantidad de caracteres de cada elemento.
d['AREA NAME'][0:5].str.len()

In [None]:
# Cortar en base a espacios en blanco.
d['AREA NAME'][0:5].str.split(' ')

In [None]:
# Reemplazar
d['AREA NAME'][0:5].str.replace('DISTRICT$', 'DIST')

In [None]:
# Exportar datos de un data frame a un csv
d = {'c1': pd.Series(['A', 'B', 'C']),'c2': pd.Series([1, 2., 3., 4.])}
df = pd.DataFrame(d)
df

In [None]:
df.to_csv('C:/Users/pc/PythonHJB/sample_data.csv')

In [None]:
mainpath = "C:/Users/pc/PythonHJB/"
filename = "titanic/titanic3.csv"
fullpath = mainpath+filename

In [None]:
data = pd.read_csv(fullpath)

In [None]:
data.head()

### Ejemplos de los parámetros de la función read_csv
read.csv(filepath="fullpath",
        sep = ",", 
        dtype={"ingresos":np.float64, "edad":np.int32}, 
        header=0,names={"ingresos", "edad"},
        skiprows=12, index_col=None, 
        skip_blank_lines=False, na_filter=False
        )

In [None]:
data.describe()

In [None]:
data.dtypes

In [None]:
data_churn = pd.read_csv(mainpath + "/" + "customer-churn-model/Customer Churn Model.txt")

In [None]:
data_churn.columns.values

In [None]:
data_churn.shape

In [None]:
data_churn.tail(8)

In [None]:
data_churn2.dtypes

In [None]:
data_churn.describe()

In [None]:
data_cols = pd.read_csv(mainpath + "/" + "customer-churn-model/Customer Churn Columns.csv")
data_col_list = data_cols["Column_Names"].tolist()
data_churn2 = pd.read_csv(mainpath + "/" + "customer-churn-model/Customer Churn Model.txt", 
                    header = None, names = data_col_list)
data_churn2.columns.values

In [None]:
data_churn2.tail(8)

## 2.2. Importar y exportar datos en formato xls

In [None]:
# Importar datos en formato xls.
d_excel = pd.read_excel('C:/Users/pc/PythonHJB/student/students.xls')

In [None]:
d_excel.head()

In [None]:
# Exportar datos de un data frame a un xls
data_churn2.to_excel('C:/Users/pc/PythonHJB/sample_data.xls')

## 2.3 Leer datos desde una URL

In [None]:
medals_url = "http://winterolympicsmedals.com/medals.csv"

In [None]:
medals_data = pd.read_csv(medals_url)

In [None]:
medals_data.head(10)

In [None]:
url = 'https://www.fdic.gov/bank/individual/failed/banklist.html'

In [None]:
dfs = pd.read_html(url)
dfs

In [None]:
help(pd.read_html)

In [None]:
url_mcc = 'https://en.wikipedia.org/wiki/Mobile_country_code'
dfs2 = pd.read_html(url_mcc, match='Telekom Albania', header=0, converters={'MNC':str})
dfs2

## 2.4 Archivos Json

In [None]:
medals_data.to_json(mainpath + "medals_data.json")

In [None]:
titanic3=pd.read_json(mainpath+"/titanic/titanic_custom.json")

In [None]:
titanic3.head(4)

# 3. Transformación de variables

## Filtros

In [None]:
data_churn

### Crear un subconjunto de datos

#### Subconjunto de columna o columnas

In [None]:
account_length = data_churn["Account Length"]

In [None]:
type(account_length)

In [None]:
subset = data_churn[["Account Length", "Phone", "Eve Charge", "Day Calls"]]
subset.head()

In [None]:
type(subset)

In [None]:
all_columns_list = data_churn.columns.values.tolist()
all_columns_list

### Subconjuntos de filas con condiciones booleanas

In [None]:
##Usuarios con Day Mins > 300
data1 = data_churn[data_churn["Day Mins"]>300]
data1.shape

In [None]:
##Usuarios de Nueva York (State = "NY")
data2 = data_churn[data_churn["State"]=="NY"]
data2.shape

In [None]:
##AND -> &
data3 = data_churn[(data_churn["Day Mins"]>300) & (data_churn["State"]=="NY")]
data3.shape

In [None]:
##OR -> |
data4 = data_churn[(data_churn["Day Mins"]>300) | (data_churn["State"]=="NY")]
data4.shape

In [None]:
data5 = data_churn[data_churn["Day Calls"]<data_churn["Night Calls"]]
data5.shape

In [None]:
##Minutos de día, de noche y Longitud de la Cuenta de los primeros 50 individuos
subset_first_50 = data_churn[["Day Mins", "Night Mins", "Account Length"]][:50]
subset_first_50.head()

### Insertar nuevas variables en el dataframe

In [None]:
data_churn["Total Mins"] = data_churn["Day Mins"] + data_churn["Night Mins"] + data_churn["Eve Mins"]

In [None]:
data_churn["Total Calls"] = data_churn["Day Calls"] + data_churn["Night Calls"] + data_churn["Eve Calls"]

In [None]:
data_churn.head()

### Insertar variables dummy

In [None]:
data

In [None]:
data["sex"].head(10)

In [None]:
dummy_sex = pd.get_dummies(data["sex"], prefix="sex")

In [None]:
dummy_sex.head(10)

In [None]:
data = data.drop(["sex"], axis = 1)

In [None]:
data

### Elegir aleatoriamente una variable

In [None]:
column_list = data.columns.values.tolist()
column_list

In [None]:
np.random.choice(column_list)

# 4. Tratamiento de los missing values

# 4.1. Valores perdidos

In [None]:
d.head()

In [None]:
pd.isnull(d["REGION"])

In [None]:
# Identificar a los valores perdidos.
d['REGION'].isnull()

In [None]:
# Identificar a los valores no perdidos.
d['PCT OVERWEIGHT'].notnull()

In [None]:
# Cuantificar a los valores perdidos.
d['PCT OVERWEIGHT'].isnull().value_counts()

In [None]:
# Cuantificar a los valores no perdidos.
d['PCT OVERWEIGHT'].notnull().value_counts()

In [None]:
pd.isnull(d["PCT OVERWEIGHT"]).values.ravel().sum()

In [None]:
pd.notnull(d["PCT OVERWEIGHT"]).values.ravel().sum()

In [None]:
# Eliminar a los valores perdidos.
d['PCT OVERWEIGHT'].dropna()

In [None]:
d.head()

In [None]:
# Eliminar a cualquier registro que tenga por lo menos un campo con valor perdido.
d_drop = d.dropna(how='any')

In [None]:
d_drop.head()

In [None]:
# Cuantificar a los valores perdidos.
d_drop['PCT OVERWEIGHT'].isnull().value_counts()

# 4.2. Imputar Valores Perdidos

#### Rellenar los valores fantantes

In [None]:
# Crear un data frame en base a números aleatorios.
df = pd.DataFrame(np.random.randn(5, 3), index=['a0', 'a10','a20', 'a30', 'a40'],columns=['X', 'Y', 'Z'])
df

In [None]:
# Crear índices adicionales al data frame.
df2 = df.reindex(['a0', 'a1', 'a10', 'a11', 'a20', 'a21','a30', 'a31', 'a40', 'a41'])
df2

In [None]:
# Completar los valores perdidos con ceros.
df3 = df2.fillna(0)
df3

In [None]:
# Completar los valores perdidos con el método “forward propagation”. Se va completar con el valor previo al nulo.
df4 = df2.fillna(method='pad')
df4

In [None]:
data5["age"].fillna(method="ffill")

In [None]:
data5["age"].fillna(method="backfill")

In [None]:
# Completar los valores perdidos con el promedio de la variable.
df5 = df2.fillna(df2.mean())
df5

In [None]:
data5["age"].fillna(data["age"].mean())

In [None]:
data5["age"][1291]

In [None]:
data5["body"] = data5["body"].fillna(0)
data5["home.dest"] = data5["home.dest"].fillna("Desconocido")
data5.head(5)

# 4. Agregación de datos

In [None]:
# Seleccionamos los 5 primeros registros de 2 campos.
d[['AREA NAME', 'COUNTY']][0:5]

In [None]:
# Partir los datos en dos grupos. Concatenarlos por posición.
p1 = d[['AREA NAME', 'COUNTY']][0:2] 
p1

In [None]:
p2 = d[['AREA NAME', 'COUNTY']][2:5]
p2

In [None]:
pd.concat([p1,p2])

In [None]:
# Concatenar datos en base a una llave.
concatenated = pd.concat([p1,p2], keys = ['p1','p2'])
concatenated.head()

In [None]:
# Seleccionar la data agregada en base a una llave.
concatenated.ix['p1']

In [None]:
# Seleccionamos un subconjunto de elementos y promediamos.
data = df[df['GRADE LEVEL'] == 'ELEMENTARY']
data.head()

In [None]:
data['NO. OBESE'].mean()

In [None]:
# La suma total.
data['NO. OBESE'].sum()

In [None]:
# Valor máximo.
data['NO. OBESE'].max()

In [None]:
# Valor mínimo.
data['NO. OBESE'].min()

In [None]:
# Desviación Estándar.
data['NO. OBESE'].std()

In [None]:
# Conteo.
data = df[(df['GRADE LEVEL'] == 'ELEMENTARY') & (df['COUNTY'] == 'DELAWARE')]
data['COUNTY'].count()

In [None]:
data['GRADE LEVEL'].count()

In [None]:
# Crear datos
grade_lookup = {'GRADE LEVEL': pd.Series(['ELEMENTARY','MIDDLE/HIGH', 'MISC']),'LEVEL': pd.Series([1, 2, 3])}
grade_lookup

In [None]:
grade_lookup2 = pd.DataFrame(grade_lookup)
grade_lookup2

In [None]:
# Primeros 5 elementos del campo GRADE LEVEL
df[['GRADE LEVEL']][0:5]

In [None]:
# Inner Join
d_sub = df[0:5].join(grade_lookup2.set_index(['GRADE LEVEL']),on=['GRADE LEVEL'], how='inner')
d_sub

In [None]:
#Left Join.
d_sub = df[0:5].join(grade_lookup2.set_index(['GRADE LEVEL']),on=['GRADE LEVEL'], how='left')
d_sub

In [None]:
#Full Outer Join.
d_sub = df[0:5].join(grade_lookup2.set_index(['GRADE LEVEL']),on=['GRADE LEVEL'], how='outer')
d_sub

In [None]:
# Group By
df['NO. OBESE'].groupby(d['GRADE LEVEL']).sum()

In [None]:
df['NO. OBESE'].groupby(df['GRADE LEVEL']).aggregate(sum)

In [None]:
df['NO. OBESE'].groupby(df['GRADE LEVEL']).std()