# Manipulación de datos con Pandas
Pandas es una biblioteca de código abierto construida sobre NumPy. Se despliega como paquete de Pandas ofreciendo varios tipos de datos y operaciones para manipular datos numéricos y series numéricas.

In [None]:
# Importar los paquetes
import numpy as np
import pandas as pd

## Series
Una serie es un arreglo unidimensional con un indice. Este arreglo puede almacenar cualquier tipo de datos.

In [None]:
ser = pd.Series(dtype=np.float64)
print(ser)
print(ser.__class__)

In [None]:
a = [1, 7, 2]
s = pd.Series(a)
s

In [None]:
# Cada valor de una serie tiene un indice (puede estar repetido) que lo identifica
s[0], s[1], s[2]

In [None]:
# El indice puede especificarse (si no se especifica el indice, este se genera automaticamente como autonumerico)
s2 = pd.Series([2, 5, 8], index=['a', 'c', 'x'])
s2

In [None]:
# El acceso es por el indice
s2['a'], s2['c'], s2['x']

In [None]:
# Si el valor del indice esta duplicado ...
s2 = pd.Series([2, 5, 8, 13], index=['a', 'c', 'x', 'a'])
print(s2['a'])
print(s2['a'].__class__)

In [None]:
# Inicializar usando un diccionario
calories = {"day1": 420, "day2": 380, "day3": 390}
pd.Series(calories)

In [None]:
# Si se asigna un indice, solamente los valores en el indice se crearan
calories = {"day1": 420, "day2": 380, "day3": 390}
pd.Series(calories, index = ['day1', 'day2'])

## DataFrames

Un DataFrame es una tabla bidimensional, de tamaño variable, y potencialmente heterogénea. Al igual que las Series, cada fila tiene un índice. Cada columna de la tabla también tiene un índice.

In [None]:
df_airplane = pd.read_csv('data/3-Airplane_Crashes_Since_1908.txt')
df_airplane

In [None]:
# Noten, todos son indices
print(df_airplane.index)
print(df_airplane.columns)

In [None]:
# No hay diferencias entre filas y columnas ...
trasposed = df_airplane.T
trasposed

In [None]:
print(trasposed.index)
print(trasposed.columns)

In [None]:
# Accediendo a una columna
df_airplane['Operator']

In [None]:
print(df_airplane['Operator'].__class__)

In [None]:
# Acceso a una fila por su indice
df_airplane.iloc[5263,:]

In [None]:
# Inicializando un DataFrame con diccionario
data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data)
df

In [None]:
# Acceder a una fila por el indice
print(df.loc[1])
print(df.loc[1].__class__)

In [None]:
# Recordar: El indice puede tener cualquier tipo de datos
trasposed.loc['Location']

In [None]:
trasposed.iloc[1]

In [None]:
# Cargando un DataFrame de un diccionario
data = {
  "Duration":{
    "0":60,
    "1":60,
    "2":60,
    "3":45,
    "4":45,
    "5":60
  },
  "Pulse":{
    "0":110,
    "1":117,
    "2":103,
    "3":109,
    "4":117,
    "5":102
  },
  "Maxpulse":{
    "0":130,
    "1":145,
    "2":135,
    "3":175,
    "4":148,
    "5":127
  },
  "Calories":{
    "0":409,
    "1":479,
    "2":340,
    "3":282,
    "4":406,
    "5":300
  }
}

pd.DataFrame(data)

In [None]:
# Noten que no se usa el orden (que no hay en diccionarios), sino el indice
data = {
    "nombre":{
        1: "Pedro",
        2: "Juan",
        3: "Maria"
    },
    "edad": {
        1: 23,
        2: 34,
        4: 15
    },
    "masculino":{
        1: True,
        3: False,
        4: True,
    }
}
pd.DataFrame(data)

In [None]:
# Primeras y ultimas lineas
df_airplane.head(5)

In [None]:
df_airplane.tail(5)

In [None]:
# En ambos casos el resultado es un DataFrame
df_airplane.tail(5).__class__

In [None]:
# Informacion sobre el DataFrame
# Noten: Nombre, tipo, cantidad de datos vacios
df_airplane.info()

## Limpieza de datos
Para mostrar cómo limpiar los datos, utilizaremos la siguiente bd de ejemplo, con los siguientes problemas:
- Faltan datos en algunas celdas (fecha en fila 22 y calorias en las filas 18 y 28)
- Algunos datos tienen formato erroneo (Fecha en la 26)
- Algunos datos son erroneps (Diración en 7)
- Filas duplicadas (fila 11 y 12)

In [None]:
data = pd.read_csv("data/cardio.csv")
data

In [None]:
# Eliminar filas con valores faltantes
# Noten que los indices no cambiaron!
new_data = data.dropna()
new_data

** Nota importante **
-  Toda transformación crea un DataFrame nuevo con la modificación

In [None]:
print(data.shape)
print(new_data.shape)

- Esto puede cambiarse en casi todos los casos con el parametro inplace=True

In [None]:
data_copy = pd.read_csv("data/cardio.csv")
print(data_copy.shape)
data_copy.dropna(inplace=True)
print(data_copy.shape)

In [None]:
# Otra forma de completar valores perdidos
df = pd.read_csv('data/cardio.csv')
df.fillna(130, inplace = True) 
df

In [None]:
# Hay que tener cuidado, pues el cambio se hace en todas las columnas. Mejor
df = pd.read_csv('data/cardio.csv')
df['Calories'].fillna(130, inplace = True) 
df

In [None]:
# Remplazar por media, mediana o moda
df = pd.read_csv('data/cardio.csv')
# or .median() or .mode()[0] (la moda devuelve una serie)
mean = df['Calories'].mean()
print(mean)
df['Calories'].fillna(mean, inplace = True) 
df

In [None]:
# Convirtiendo las cadenas al formato correcto. La columna Date es un datetime
df['Date'] = pd.to_datetime(df['Date'])
df

In [None]:
# Noten que todo se resuelve, menos el valor faltante ... NaT
# Como esto no tiene solucion en este caso, eliminamos esa fila
df.dropna(subset=['Date'], inplace = True)
df

Los datos erroneos no están vacíos o en un formato incorrecto, sino que son producto de errores al captarlos o al digitalizar la información. Por ejemplo, una temperatura máxima en Cuba en Agosto de 3 grados es muy probablemente un error.

En la base de datos que procesamos, el valor de 450 en duration es un error. Se agrego un cero

In [None]:
df.loc[0:7, 'Duration']

In [None]:
# La base de datos pequeña, correcciones a mano ...
df.loc[7, 'Duration'] = 45
df.loc[0:7, 'Duration']

In [None]:
# Busqueda de errores:
df.describe()

In [None]:
# Arreglos masivos
df.loc[7, 'Duration'] = 450

for x in df.index:
    if df.loc[x, "Duration"] > 120:
        df.loc[x, "Duration"] = 120
        
df.loc[0:7, 'Duration']

In [None]:
# Otra forma
df.loc[7, 'Duration'] = 450

df[df['Duration'] > 120] = 120
df.loc[0:7, 'Duration']

In [None]:
# Borrar las filas con problemas
df.loc[7, 'Duration'] = 450
for x in df.index:
    if df.loc[x, "Duration"] > 120:
        df.drop(x, inplace = True) 
df.loc[0:8, 'Duration']

Eliminando filas duplicadas

In [None]:
df.duplicated()

In [None]:
df.drop_duplicates(inplace = True)
df

In [None]:
# Correlacion entre columnas
df.corr()

## Agrupamiento
Al agrupar un dataframe por una columna, se crea una vista del dataframe para cada valor existente de esa columna

In [None]:
for key, group in df.groupby("Duration"):
    print(key)
    print(group.head(3))

In [None]:
# Con los grupos puede hacerse procesamiento posterior de manera directa
df.groupby("Duration")['Pulse'].mean()

In [None]:
# o de todos. Noten que el resultado es un dataframe
means = df.groupby("Duration").mean()
means

In [None]:
means.corr()

In [None]:
# Cantidad por grupos
df.groupby("Duration")['Pulse'].count()

In [None]:
# Se puede agrupar por varias columnas de forma simultanea. 
# Para ello vamos a usar otra base de datos
dtypes = {
    "first_name": "category",
    "gender": "category",
    "type": "category",
    "state": "category",
    "party": "category",
}
data = pd.read_csv(
    "data/legislators-historical.csv",
    dtype=dtypes,
    usecols=list(dtypes) + ["birthday", "last_name"],
    parse_dates=["birthday"]
)
data.tail()

In [None]:
for k, v in data.groupby(["state", "gender"]):
    print(k)
    print(v.head(2))

In [None]:
# Contemos por estado y genero
data.groupby(["state", "gender"])["last_name"].count()

In [None]:
# El orden importa!
data.groupby(["gender", "state"])["last_name"].count()

In [None]:
# Los indices que devuelve son multiindices ...
data.groupby(["state", "gender"])["last_name"].count().index

In [None]:
# El resultado puede obtenerse sin usar indices, al estilo SQL
data.groupby(["state", "gender"], as_index=False)["last_name"].count()

## Visualizacion de datos

In [None]:
import matplotlib.pyplot as plt
df = pd.read_csv("data/cardio2.csv")
df

In [None]:
# Ploteo muuuy simple
df.plot()
plt.show()

In [None]:
# Un scatter plot
df.plot(kind = 'scatter', x = 'Pulse', y = 'Calories')
plt.show() 

In [None]:
# Correlación ....
df.corr()

In [None]:
df.plot(kind = 'scatter', x = 'Duration', y = 'Calories')
plt.show() 

In [None]:
df.plot(kind = 'scatter', x = 'Maxpulse', y = 'Duration')
plt.show() 

In [None]:
# Histogramas
df['Duration'].plot(kind='hist')
plt.show()

In [None]:
# controlando los bins
df['Duration'].plot(kind='hist', bins=20)
plt.show()