---
Escuela de Ingeniería de Sistemas y Computación  
Universidad del Valle  
INTRODUCCIÓN A LA PROGRAMACIÓN PARA ANALÍTICA  
Profesor: Ph.D, Robinson Duque - robinson.duque@correounivalle.edu.co  
Última modificación: Julio de 2020

---

# Consideraciones:

Este material presenta textos y ejemplos orientados al propósito del curso de _Introducción a la Programación para Analítica_ de la Universidad del Valle.   Parte de los textos y ejemplos incluidos en este notebook de Introducción a Pandas fueron tomados y ajustados de los libros: 
* [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/index.html) de Jake VanderPlas disponible en GitHub. La obra está bajo una licencia CC-BY-NC-ND que permite: copiar y redistribuir el material, bajo la condicion de reconocer y dar crédito al autor original (Jake VanderPlas).

* [Manual de Python](https://aprendeconalf.es/python/manual/) de Alfredo Sánchez Alberca. La obra está bajo una licencia Atribución–No comercial–Compartir igual 4.0 Internacional de Creative Commons que permite: copiar y redistribuir el material en cualquier medio o formato, remezclar, transformar y construir a partir del material. 

Este material presenta cambios dirigidos hacia textos orientados a la versión 3.0 de Python, para lo cual se han incluido nuevos ejemplos y se proponen ejercicios para validar los conocimientos de los estudiantes orientados al propósito del curso de _Introducción a la Programación para Analítica_ de la Universidad del Valle.

---

# Vínculos de interés:

* [Guía de Usuario de Numpy](https://numpy.org/devdocs/user/quickstart.html )

* [Guía de Usuario de Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html)

* [Guía de Matplotlib](https://matplotlib.org/users/index.html)

* [Kaggle: Your Machine Learning and Data Science Community](https://www.kaggle.com)

---

# Añadir columnas a un Dataframe
El procedimiento para añadir una nueva columna a un DataFrame es similar al de añadir un nuevo par aun diccionario, pero pasando los valores de la columna en una lista o serie.

* `df[nombre] = lista`: Añade al DataFrame `df` una nueva columna con el nombre `nombre` y los valores de la lista `lista`. La lista debe tener el mismo tamaño que el número de filas de df.

* `df[nombre] = serie`: Añade al DataFrame `df` una nueva columna con el nombre `nombre` y los valores de la serie `serie`. Si el tamaño de la serie es menor que el número de filas de df se rellena con valores NaN mientras que si es mayor se recorta.

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('diabetes.csv', index_col=[0])

In [None]:
df

In [None]:
df['diabetes'] = pd.Series([False, False, True, False, True])

In [None]:
df

# Operaciones sobre columnas

Puesto que los datos de una misma columna de un DataFrame son del mismo tipo, es fácil aplicar la misma operación a todos los elementos de la columna. Estas operaciones utilizan las mismas funciones vectorizadas que Numpy.

In [None]:
print(df['altura']*100)

In [None]:
print(df['sexo']=='M')

In [None]:
df["IMC"] = df["peso"]/(df["altura"]**2)

#Lo ideal es utilizar: 
#df.loc[:,"IMC"] = df.loc[:,"peso"]/(df.loc[:,"altura"]**2)

In [None]:
df

# Aplicar funciones a columnas

Como vimos anteriormente, podemos aplicar funciones a las columnas de un Dataframe puesto que éstas son Series.
* `df[columna].apply(f)` : Devuelve una serie con los valores que resulta de aplicar la función `f` a los elementos de la columna con nombre columna del DataFrame `df`:

In [None]:
from math import log

print(df['altura'].apply(log))

In [None]:
print(df["nombre"].apply(str.upper))

In [None]:
#Otra forma de aplicar funciones a strings es a través de los métodos disponibles
#en el objeto 'str'

df["nombre"].str.upper()

In [None]:
df["nombre"].str.count("a")

In [None]:
df["nombre"].str.replace("a","xxxxx")

# Resumen descriptivo de un DataFrame
* `df.count()` : Devuelve una serie número de elementos que no son nulos ni NaN en cada columna del DataFrame df.
* `df.sum()` : Devuelve una serie con la suma de los datos de las columnas del DataFrame df cuando los datos son de un tipo numérico, o la concatenación de ellos cuando son del tipo cadena str.
* `df.cumsum()` : Devuelve un DataFrame con la suma acumulada de los datos de las columnas del DataFrame df cuando los datos son de un tipo numérico.
* `df.min()` : Devuelve una serie con los menores de los datos de las columnas del DataFrame df.
* `df.max()` : Devuelve una serie con los mayores de los datos de las columnas del DataFrame df.
* `df.mean()` : Devuelve una serie con las media de los datos de las columnas del DataFrame df cuando los datos son de un tipo numérico.
* `df.std()` : Devuelve una serie con las desviaciones típicas de los datos de las columnas del DataFrame df cuando los datos son de un tipo numérico.
* `df.describe()`

In [None]:
df.describe()

# Eliminar Columnas de un Dataframe
Para eliminar columnas de un DataFrame se utilizan los siguientes métodos:

* `del d[nombre]` : Elimina la columna con nombre nombre del DataFrame df.

* `df.pop(nombre)` : Elimina la columna con nombre nombre del DataFrame df y la devuelve como una serie.

In [None]:
# Agreguemos una columna para luego eliminarla
df["Peso x Altura"] = df["peso"]* df["altura"]
df

In [None]:
x = df.pop("Peso x Altura")
x

In [None]:
df

In [None]:
del df["diabetes"]

In [None]:
df

# Eliminar filas
* `df.drop(filas)` : Devuelve el DataFrame que resulta de eliminar las filas con los nombres indicados en la lista filas del DataFrame df`


In [None]:
df

In [None]:
df.drop([1,3])

In [None]:
df

# Añadir una fila a un Dataframe
Para añadir una fila a un DataFrame se utiliza el siguiente método:

* `df.append(serie, ignore_index=True)` : Devuelve el DataFrame que resulta de añadir una fila al DataFrame df con los valores de la serie serie. Los nombres del índice de la serie deben corresponderse con los nombres de las columnas de df. Si no se pasa el parámetro ignore_index entonces debe pasarse el parámetro `name` a la serie, donde su argumento será el nombre de la nueva fila.

In [None]:
df = df.append(pd.Series(['Viviana Marin', 36, 'M', 60.4, 1.58, 180.0], 
                         index=['nombre','edad','sexo','peso','altura','colesterol']), 
                         ignore_index=True)
df

# Filtrado de un Dataframe
Una operación bastante común con un DataFrame es obtener las filas que cumplen una determinada condición.

* `df[condicion]` : Devuelve un DataFrame con las filas del DataFrame df que se corresponden con el valor True de la lista booleana condicion. condicion debe ser una lista de valores booleanos de la misma longitud que el número de filas del DataFrame.
* `df.loc[condicion]` : Devuelve un DataFrame con las filas del DataFrame df que se corresponden con el valor True de la lista booleana condicion. condicion debe ser una lista de valores booleanos de la misma longitud que el número de filas del DataFrame.

In [None]:
df[(df['sexo']=='H') & (df['colesterol'] > 200)]

In [None]:
df.loc[(df['sexo']=='H') & (df['colesterol'] > 200)]

In [None]:
df[(df['sexo']=='H') & (df['colesterol'] > 200)]["nombre"]

In [None]:
df.loc[(df['sexo']=='H') & (df['colesterol'] > 200), "nombre"]

In [None]:
df[(df['sexo']=='H') & (df['colesterol'] > 200)][["nombre","colesterol"]]

In [None]:
df.loc[(df['sexo']=='H') & (df['colesterol'] > 200) , ["nombre","colesterol"]]

In [None]:
df[(df['sexo']=='H') & (df['colesterol'] > 200)][["nombre","colesterol"]].loc[5]

In [None]:
df[(df['sexo']=='H') & (df['colesterol'] > 200)][["nombre","colesterol"]].iloc[4]

In [None]:
df[(df['sexo']=='H') & (df['colesterol'] > 200)][["nombre","colesterol"]].loc[5:9]

In [None]:
df[(df['sexo']=='H') & (df['colesterol'] > 200)][["nombre","colesterol"]].iloc[0:2]

In [None]:
c = df[(df['sexo']=='H') & (df['colesterol'] > 200)]["colesterol"]
c.sum()

# Cambiar valores que cumplen con un filtro o mascara
* `df.loc[mascara]=valor` : cambiar todos los valores de todas las columnas del dataframe por `valor` cuyos índices coincidan con los valores de `True` en la mascara `mascara`
* `df.loc[mascara, columnas]=valor`: cambiar todos los valores indicados en la lista `columnas` por `valor` que coincidan con los valores de `True` en la mascara `mascara`

In [None]:
m = (df['sexo']=='H') & (df['colesterol'] > 200)
m

In [None]:
df.loc[m]

In [None]:
df.loc[m,"colesterol"]

In [None]:
df.loc[m, ["colesterol","altura"]]

In [None]:
df.loc[m,"colesterol"]= -1 #cambiar todos los valores de colesterol que cumplan con el filtro

In [None]:
df

In [None]:
df.loc[m] =-1

In [None]:
df

In [None]:
df.loc[m,"nombre"]="Procesado"

In [None]:
df

In [None]:
df.loc[m,"peso"]=df.loc[m,"peso"]*-2

In [None]:
df

# Tratar valores faltantes

In [None]:
df = pd.read_csv("diabetes.csv", index_col=[0]) #Se cargan los datos nuevamente

df.head()

Ahora revisemos los datos faltantes

In [None]:
df.isna()

In [None]:
df.isna().sum()

In [None]:
df["peso"].isna()

In [None]:
df[ df["peso"].isna() ]

In [None]:
df["peso"].fillna( df["peso"].mean() , inplace=True)

#Otra forma de hacer lo mismo
#df["peso"] = df["peso"].fillna( df["peso"].mean())

In [None]:
df

In [None]:
df[ df["colesterol"].isna() ]

In [None]:
df.drop(7,inplace=True)

#Otra forma de hacerlo:

#df.dropna(subset=['colesterol'],inplace=True)


#Para eliminar valores NaN, también se puede
#actualizar el dataframe con datos que no son NaN

#df = df[df['colesterol'].notna()] 

#aunque esto realmente crearía una vista del dataframe
#inicial y podría generar algunos mensajes de advertencia
#en futuras modificaciones.

In [None]:
df

In [None]:
df.describe()

Agreguemos dos columnas nuevas (IMC y Clasificación)

In [None]:
df["IMC"] = df["peso"]/(df["altura"]**2)

In [None]:
df

Realicemos una operación que permita clasificar las personas acorde al IMC:

|Clasificación|IMC|
|---|---|
|Bajo Peso| < 18.5|
|Peso Normal| >= 18.5 y < 25|
|Sobrepeso|>=25 y <30|
|Obesidad|>=30|

In [None]:
def clasificacion(v_imc):
    if v_imc < 18.5:
        return "Bajo Peso"
    elif v_imc >= 18.5 and v_imc < 25:
        return "Peso Normal"
    elif v_imc >= 25 and v_imc < 30:
        return "Sobrepeso"
    else:
        return "Obesidad"
    
df["Clasificacion"] = df["IMC"].apply(clasificacion)

In [None]:
df

In [None]:
df.info()

Ahora nuestros datos están listos para ser utilizados y responder preguntas como:

1. ¿cuántos hombres y mujeres hay en el dataset?

In [None]:
hombres = (df["sexo"] == "H").sum()
mujeres = (df["sexo"] == "M").sum()
print("Hombres {}, Mujeres {}".format(hombres,mujeres))

2. ¿cuántos hombres están en sobrepeso?

In [None]:
((df["sexo"] == "H") & (df["Clasificacion"]=="Sobrepeso")).sum()

3. De los hombres que están en sobrepeso, ¿cuál es su promedio de peso?

In [None]:
m = ((df["sexo"] == "H") & (df["Clasificacion"]=="Sobrepeso"))

df[m]["peso"].mean()

4. De los hombres que están en sobrepeso, ¿cuál es su promedio de altura?

In [None]:
df[m]["altura"].mean()

5. ¿cuántos hombres están por encima y por debajo del promedio de peso de las mujeres?

In [None]:
m2=(df["sexo"] == "M")
peso_promedio_m= df[m2]["peso"].mean()

m3 = ( (df["sexo"] == "H") & (df["peso"]< peso_promedio_m) )
m4 = ( (df["sexo"] == "H") & (df["peso"]> peso_promedio_m) )

print("Peso promedio de mujeres:",peso_promedio_m)
print("Hombres por debajo del promedio de peso de mujeres:", m3.sum())
print("Hombres por encima del promedio de peso de mujeres:", m4.sum())

6. Genere un listado con los nombres y las alturas de mujeres que están por encima y por debajo del peso promedio. 

In [None]:
df[ m2 & (df["peso"]< peso_promedio_m)][["nombre","altura"]]

In [None]:
df[ m2 & (df["peso"]> peso_promedio_m)][["nombre","altura"]]

#  Índices Múltiples
Es posible definir diversos índices para un dataframe.

In [None]:
df

In [None]:
IDs = pd.Series([123,245,678,456,234,980,357,538,467,163,582,436,901,758]) 
df["Identificacion"] = IDs

In [None]:
df

In [None]:
df.set_index(["sexo","Clasificacion","Identificacion"], inplace=True)


In [None]:
df

In [None]:
df.sort_index( inplace=True)
df

In [None]:
df.reset_index(["Identificacion"], inplace=True)

In [None]:
df

In [None]:
df.set_index(["Identificacion"], inplace=True, append=True)

In [None]:
df

In [None]:
df.loc["H"]

In [None]:
df.loc["H","Peso Normal"]

In [None]:
df.loc["H","Peso Normal",436]

In [None]:
df.loc["H","Peso Normal",436:678]

In [None]:
df.loc["H","Peso Normal"]["IMC"]

In [None]:
df.loc["H","Peso Normal"]["IMC"].mean()

In [None]:
df[df["peso"]>75].loc["H","Peso Normal",:]

# Group By

In [None]:
df = pd.read_csv("diabetes.csv", index_col=[0]) #Se cargan los datos nuevamente
df["IMC"] = df["peso"]/(df["altura"]**2)

def clasificacion(v_imc):
    if v_imc < 18.5:
        return "Bajo Peso"
    elif v_imc >= 18.5 and v_imc < 25:
        return "Peso Normal"
    elif v_imc >= 25 and v_imc < 30:
        return "Sobrepeso"
    else:
        return "Obesidad"
    

df["Clasificacion"] = df["IMC"].apply(clasificacion)

df.head()

In [None]:
df.groupby("sexo")

In [None]:
df.groupby("sexo").groups

In [None]:
df.groupby("sexo").get_group("H")

In [None]:
df.groupby("sexo").get_group("M")

In [None]:
df.groupby("sexo").get_group("H").groupby("Clasificacion").get_group("Obesidad")


In [None]:
import numpy as np

df.groupby("sexo").agg(np.mean)

In [None]:
df.groupby("sexo").agg(np.std)