# Trabajando con Pandas

In [1]:
import pandas as pd # import pandas
import numpy as np # import numpy
import matplotlib.pyplot as plt # import libreria para plotear
pd.set_option('max_columns', 50) # maximo de columnas a mostrar cuando se muestra un pandas dataframe
# indica a python que plotee en el notebook
from IPython.display import display, HTML
%matplotlib inline 

## Inspeccion

Inspeccion de dataframes. Primero cargamos el fichero.

In [1]:
len()

TypeError: len() takes exactly one argument (0 given)

In [150]:
columnas = ['idsub','sexo','edad','altura','peso','tratamiento','supervivencia']
#sexo = np.random.choice([0,1], 100, p = [.5,.5])
idsub = np.arange(1000,1100,1)
sexo = np.concatenate((np.zeros(50), np.ones(50)))
edad = np.random.randint(20, high=70, size=100)
altura_mujer = np.random.randint(150, high=175, size=50)
altura_hombre = np.random.randint(160, high=190, size=50)
altura = np.concatenate((altura_hombre, altura_mujer))
peso_mujer = np.random.randint(50, high=70, size=50)
peso_hombre = np.random.randint(55, high=90, size=50)
peso = np.concatenate((peso_hombre, peso_mujer))
tratamiento = np.random.choice([0,1], 100, p = [.5,.5])
supervivencia = np.random.choice([1,2,3,4,5], 100, p = [.1,.2,.3,.1,.3])

df = pd.DataFrame(np.transpose([idsub,sexo,edad,altura,peso,tratamiento,supervivencia]), columns = columnas)
df.to_csv('sanity.csv', index=0)

In [3]:
df = pd.read_csv('sanity.csv')

El dataset contiene datos de un estudio realizado sobre pacientes con cancer de pulmon. Esta estructurado de la forma siguiente:

idbus --> identificador de la persona en el hospital  
sexo --> 0 (varon), 1 (mujer)  
edad --> edad de la persona  
altura --> altura de la persona en cm  
peso --> peso de la persona en kg  
tratamiento --> 0 (quimioterapia), 1 (radioterapia)  
supervivencia --> años de supervivencia desde el tratamiento   

------------------------------------------------------------

In [41]:
df.head(5)

Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia
0,1000,0,52,181,70,1,4
1,1001,0,52,189,64,0,4
2,1002,0,35,173,77,1,5
3,1003,0,67,170,72,1,3
4,1004,0,25,161,77,0,5


_info()_ nos da la siguiente informaicon acerca del dataframe.  
1. Es una variable de tipo DataFrame
2. El numero de filas y el rango del indice (de 0 hasta N-1)
3. El numero de columnas
4. El nombre de las columnas y cuantos nulls hay en cada una
5. El tipo de datos de cada columna (tipo object se refiere principalmente a cadenas)
6. La cantidad de memoria RAM usada por el dataframe

In [42]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100 entries, 0 to 99
Data columns (total 7 columns):
idsub            100 non-null float64
sexo             100 non-null float64
edad             100 non-null float64
altura           100 non-null float64
peso             100 non-null float64
tratamiento      100 non-null float64
supervivencia    100 non-null float64
dtypes: float64(7)
memory usage: 6.2 KB


Si queremos saber los tipos de datos de las columnas podemos utilizar _dtypes_.

In [43]:
df.dtypes

idsub            float64
sexo             float64
edad             float64
altura           float64
peso             float64
tratamiento      float64
supervivencia    float64
dtype: object

Existe un metodo muy interesante que proporciona estadisticas basicas para las columnas numericas. Se llama _describe()_. Permite obtener una vision general muy  rapida del dataframe.

In [44]:
df.describe()

Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia
count,100.0,100.0,100.0,100.0,100.0,100.0,100.0
mean,1049.5,0.5,45.33,167.14,67.28,0.53,3.28
std,29.011492,0.502519,15.086321,10.623987,10.829328,0.501614,1.318708
min,1000.0,0.0,20.0,150.0,50.0,0.0,1.0
25%,1024.75,0.0,31.0,159.5,59.0,0.0,2.0
50%,1049.5,0.5,45.5,167.0,65.5,1.0,3.0
75%,1074.25,1.0,58.0,175.0,75.25,1.0,5.0
max,1099.0,1.0,68.0,189.0,89.0,1.0,5.0


Para imprimir las primeras lineas del dataframe se utiliza _head()_ y para las ultimas _tail()_. Por defecto Python imprime 5 lineas. Tambien se le puede pasar el numero de lineas a imprimir a cualquiera de las funciones.

In [45]:
df.head() # por defecto 5 lineas

Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia
0,1000,0,52,181,70,1,4
1,1001,0,52,189,64,0,4
2,1002,0,35,173,77,1,5
3,1003,0,67,170,72,1,3
4,1004,0,25,161,77,0,5


In [46]:
df.tail(3) # le digo a tail que imprima las tres ultimas lineas

Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia
97,1097,1,33,171,61,0,5
98,1098,1,48,168,69,1,2
99,1099,1,63,155,68,1,4


Tambien se puede usar indexacion por trozos _slicing_ como hemos hecho anteriormente con listas y arrays.

In [47]:
df[20:22]

Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia
20,1020,0,52,166,88,0,3
21,1021,0,27,161,63,1,2


### Seleccion

Un dataframe no es mas que un conjunto de objetos _Series_ que comparten un indice. La seleccion de una columna en el dataframe devuelve como resultado una variable tipo _Series_.

In [48]:
display(df['peso'].head())

0    70
1    64
2    77
3    72
4    77
Name: peso, dtype: float64

Para indexar mas de una columna hay que pasar una lista con el nombre de las columnas al dataframe. La salida sera un dataframe.

In [49]:
df[['peso', 'altura']].head(2)

Unnamed: 0,peso,altura
0,70,181
1,64,189


La seleccion de filas se hace de diferentes formas. Se puede hacer una seleccion por indice individual pero lo mas comun es realizar un indexado booleano.

In [50]:
print 'Peso > 70'
display(df[df['peso']>70].head(3))

print 'Peso < 70 y altura<160'
display(df[(df['peso']<70) & (df['altura']<160)].head(3))


Peso > 70


Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia
2,1002,0,35,173,77,1,5
3,1003,0,67,170,72,1,3
4,1004,0,25,161,77,0,5


Peso < 70 y altura<160


Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia
51,1051,1,55,151,56,0,4
52,1052,1,20,150,59,1,2
53,1053,1,49,153,59,1,5


Se puede cambiar el indice y poner uno mas significativo. Por ejemplo el nombre de la persona.

In [61]:
display(df.set_index('idsub').head(2))
print('\n')

display(df.head(2))
print "\n^^^ No he cambiado el DataFrame. ^^^\n"

with_new_index = df.set_index('idsub')
display(with_new_index.head(2))
print "\n^^^ set_index devuelve un nuevo DataFrame. ^^^\n"


Unnamed: 0_level_0,sexo,edad,altura,peso,tratamiento,supervivencia
idsub,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1000,0,52,181,70,1,4
1001,0,52,189,64,0,4






Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia
0,1000,0,52,181,70,1,4
1,1001,0,52,189,64,0,4



^^^ No he cambiado el DataFrame. ^^^



Unnamed: 0_level_0,sexo,edad,altura,peso,tratamiento,supervivencia
idsub,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1000,0,52,181,70,1,4
1001,0,52,189,64,0,4



^^^ set_index devuelve un nuevo DataFrame. ^^^



Si quieres modificar el DataFrame existente debes utilizar el parametro _inplace_. La mayoria de metodos retornan un nuevo DataFrame 

In [63]:
df.set_index('idsub', inplace=True)
df.head()

Unnamed: 0_level_0,sexo,edad,altura,peso,tratamiento,supervivencia
idsub,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1000,0,52,181,70,1,4
1001,0,52,189,64,0,4
1002,0,35,173,77,1,5
1003,0,67,170,72,1,3
1004,0,25,161,77,0,5


In [64]:
df.head()

Unnamed: 0_level_0,sexo,edad,altura,peso,tratamiento,supervivencia
idsub,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1000,0,52,181,70,1,4
1001,0,52,189,64,0,4
1002,0,35,173,77,1,5
1003,0,67,170,72,1,3
1004,0,25,161,77,0,5


Podras notar que hemos perdido el indice que Pandas nos da por defecto. Puedes seleccionar todavia usando el metodo _iloc_.

In [66]:
display(df.iloc[10])
print('\n')
display(df.iloc[[10, 20, 30]])

sexo               0
edad              57
altura           177
peso              86
tratamiento        1
supervivencia      2
Name: 1010.0, dtype: float64





Unnamed: 0_level_0,sexo,edad,altura,peso,tratamiento,supervivencia
idsub,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1010,0,57,177,86,1,2
1020,0,52,166,88,0,3
1030,0,30,182,85,1,1


Y se pueden seleccionar filas a traves del indice con el metodo _loc_.

In [67]:
display(df.loc[1000])
print('\n')
display(df.loc[[1000,1088]])

sexo               0
edad              52
altura           181
peso              70
tratamiento        1
supervivencia      4
Name: 1000.0, dtype: float64





Unnamed: 0_level_0,sexo,edad,altura,peso,tratamiento,supervivencia
idsub,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1000,0,52,181,70,1,4
1088,1,44,150,64,0,5


La regla basica en general es:
* Usa _loc_ para indexado con indice
* Usa _iloc_ para para indexado por posicion de fila

Si queremos volver a tener el indice por defecto de Pandas podemos usar _reset\_index_ .

In [68]:
df.reset_index(inplace=True)
#df = df.reset_index()

df.head()

Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia
0,1000,0,52,181,70,1,4
1,1001,0,52,189,64,0,4
2,1002,0,35,173,77,1,5
3,1003,0,67,170,72,1,3
4,1004,0,25,161,77,0,5


## Creacion de una nueva columna

Crear una nueva columna basada en los datos es muy sencillo se poner el nombre de la columna y se le asigna un valor

In [151]:
print 'antes de crear un valor'
display(df.head(2))
df['imc'] = 5
print 'hemos creado un nuevo valor'
display(df.head(2))

antes de crear un valor


Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia
0,1000,0,61,166,74,1,2
1,1001,0,21,179,89,1,4


hemos creado un nuevo valor


Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,imc
0,1000,0,61,166,74,1,2,5
1,1001,0,21,179,89,1,4,5


se puede bien modificar el valor con alguna operacion si queremos

In [152]:
df['imc'] = df['imc'] + 3
display(df.head(2))

Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,imc
0,1000,0,61,166,74,1,2,8
1,1001,0,21,179,89,1,4,8


y se pueden utilizar los valores de otras columnas para calcular el valor y asignarlo. Por ejemplo vamos a calcular el indice de  masa corporal imc cuya formula es la siguiente:

imc = peso / altura^2 

la altura debe estar en metros y el peso en kg

In [15]:
df['imc'] = df['peso'] / (df['altura']/100)**2 # recuerda que la altura esta en cm hay que pasarla a metros
display(df.head(2))

Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,grupo_edad,tratamiento_label,sexo_label,imc
0,1000,0,61,166,74,1,2,anciano,Radio,Hombre,26.854406
1,1001,0,21,179,89,1,4,joven,Radio,Hombre,27.776911


Una de las caracteristicas interesantes de Pandas es la habilidad de aplicar funciones a las filas o columnas. Para ello se utiliza el metodo _apply_ previamente definida la funcion. Vamos a cambiar el sexo por algo mas explicito ya que los numeros no dicen mucho y pueden despistar.

In [12]:
def sexo2label(data = None):
    if data['sexo'] == 0:
        return 'Hombre'
    else:
        return 'Mujer'

Una vez definida la funcion, podemos utilizar _apply_ y generar la columna

In [13]:
df['sexo_label'] = df.apply(sexo2label, axis=1)
display(df.head(2))

Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,grupo_edad,tratamiento_label,sexo_label
0,1000,0,61,166,74,1,2,anciano,Radio,Hombre
1,1001,0,21,179,89,1,4,joven,Radio,Hombre


Ahora ya tenemos una etiqueta para el sexo de las personas participantes en el estudio. Podemos definir tambien una para los tratamientos y hacerlos mas claros.

In [10]:
def tratamiento2label(data = None):
    if data['tratamiento'] == 0:
        return 'Quimio'
    else:
        return 'Radio'

In [11]:
df['tratamiento_label'] = df.apply(tratamiento2label, axis=1)
display(df.head(2))

Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,grupo_edad,tratamiento_label
0,1000,0,61,166,74,1,2,anciano,Radio
1,1001,0,21,179,89,1,4,joven,Radio


Se puede acceder a las columnas nuevas como de costumbre...

In [159]:
print 'accedo a traves de la nueva columna tratamiento_label'
display(df[df['tratamiento_label']=='Quimio'].head(2))
print 'accedo a traves de la columna tratamiento'
display(df[df['tratamiento']==0].head(2))

accedo a traves de la nueva columna tratamiento_label


Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,imc,sexo_label,tratamiento_label
3,1003,0,27,162,81,0,2,30.864198,Hombre,Quimio
5,1005,0,66,174,76,0,2,25.102391,Hombre,Quimio


accedo a traves de la columna tratamiento


Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,imc,sexo_label,tratamiento_label
3,1003,0,27,162,81,0,2,30.864198,Hombre,Quimio
5,1005,0,66,174,76,0,2,25.102391,Hombre,Quimio


## Groupby

Se pueden calcular estadisticas para las columnas como el numero de elementos, la media, desviacion estandar... pero que ocurre si queremos averiguar cosas de los diferentes grupos existentes en los datos??. Podemos utilizar la clausula _groupby_

Vamos a agrupar por sexo para ver diferentes estadisticas

In [160]:
grouped = df.groupby('sexo_label') #hemos creado un DataFrame agrupado

Ahora podemos calcular medidas diferenciando hombres de mujeres

In [107]:
print 'media de los grupos Hombre y Mujer'
display(grouped.mean())
print 'count de las filas de Hombre y Mujer'
display(grouped.count())

media de los grupos Hombre y Mujer


Unnamed: 0_level_0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,imc
sexo_label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Hombre,1024.5,0,46.88,174.02,74.32,0.58,3.06,24.767356
Mujer,1074.5,1,43.78,160.26,60.24,0.48,3.5,23.570926


count de las filas de Hombre y Mujer


Unnamed: 0_level_0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,imc,tratamiento_label
sexo_label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Hombre,50,50,50,50,50,50,50,50,50
Mujer,50,50,50,50,50,50,50,50,50


Que ha pasado? Puedes imaginar que Python ha creado dos DataFrames pequenitos que contienen por un lado los datos para hombres y por otro para las mujeres. Los calculos ahora se hacen para cada uno de los valores de la variable por la que se agrupo.

De esta forma resulta muy sencillo responder a preguntas tipo:  
* Cual es la mujer y el hombre de mayor peso?
* Los de menor?

In [162]:
print 'los de mayor peso'
display(grouped.max())
print 'los de menor peso'
display(grouped.min())

los de mayor peso


Unnamed: 0_level_0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,imc,tratamiento_label
sexo_label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Hombre,1049,0,69,189,89,1,5,33.177732,Radio
Mujer,1099,1,69,172,69,1,5,29.777778,Radio


los de menor peso


Unnamed: 0_level_0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,imc,tratamiento_label
sexo_label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Hombre,1000,0,20,160,56,0,1,16.186842,Quimio
Mujer,1050,1,20,150,50,0,1,17.239048,Quimio


Se puede agrupar por mas de una columna

In [143]:
df = df.reset_index()

In [167]:
grouped = df.groupby(['sexo_label', 'tratamiento_label'])
display(grouped.mean())

Unnamed: 0_level_0,Unnamed: 1_level_0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,imc
sexo_label,tratamiento_label,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Hombre,Quimio,1024.64,0,46.36,170.48,75.68,0,3.32,26.092685
Hombre,Radio,1024.36,0,43.52,175.8,70.48,1,2.8,22.968128
Mujer,Quimio,1070.517241,1,46.965517,161.551724,61.344828,0,3.655172,23.627459
Mujer,Radio,1080.0,1,43.380952,162.857143,59.0,1,3.428571,22.337598


Y tambien se pueden crear funciones que afecten a los grupos de forma. Imaginar que queremos generar un ranking de supervivencia de cada uno de los grupos.

In [183]:
def rank_superv(df):
    df['rank_superv'] = np.arange(len(df)) + 1
    return df

In [184]:
df = df.sort_values(['supervivencia'], ascending=False) # ordenamos para que funciones
display(df.head(10))

Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,imc,sexo_label,tratamiento_label
43,1043,0,54,189,75,0,5,20.996053,Hombre,Quimio
7,1007,0,64,189,66,1,5,18.476526,Hombre,Radio
18,1018,0,42,180,82,0,5,25.308642,Hombre,Quimio
70,1070,1,49,168,54,1,5,19.132653,Mujer,Radio
77,1077,1,46,169,62,0,5,21.707923,Mujer,Quimio
22,1022,0,56,170,56,1,5,19.377163,Hombre,Radio
6,1006,0,41,170,83,0,5,28.719723,Hombre,Quimio
87,1087,1,20,171,67,1,5,22.913033,Mujer,Radio
25,1025,0,50,172,62,0,5,20.957274,Hombre,Quimio
99,1099,1,62,170,58,0,5,20.069204,Mujer,Quimio


In [185]:
grouped = df.groupby('sexo_label')
grouped.head(5)

Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,imc,sexo_label,tratamiento_label
43,1043,0,54,189,75,0,5,20.996053,Hombre,Quimio
7,1007,0,64,189,66,1,5,18.476526,Hombre,Radio
18,1018,0,42,180,82,0,5,25.308642,Hombre,Quimio
70,1070,1,49,168,54,1,5,19.132653,Mujer,Radio
77,1077,1,46,169,62,0,5,21.707923,Mujer,Quimio
22,1022,0,56,170,56,1,5,19.377163,Hombre,Radio
6,1006,0,41,170,83,0,5,28.719723,Hombre,Quimio
87,1087,1,20,171,67,1,5,22.913033,Mujer,Radio
99,1099,1,62,170,58,0,5,20.069204,Mujer,Quimio
64,1064,1,51,172,51,0,5,17.239048,Mujer,Quimio


In [187]:
df = df.sort_values('supervivencia', ascending=False) # ordenamos para que funciones
grouped = df.groupby('sexo_label')
display(grouped.head(1)) # muestra los 1 primeros elementos de cada grupo 
grouped = grouped.apply(rank_superv)
display(grouped.head(10))

Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,imc,sexo_label,tratamiento_label
43,1043,0,54,189,75,0,5,20.996053,Hombre,Quimio
89,1089,1,44,158,57,1,5,22.832879,Mujer,Radio


Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,imc,sexo_label,tratamiento_label,rank_superv
43,1043,0,54,189,75,0,5,20.996053,Hombre,Quimio,1
89,1089,1,44,158,57,1,5,22.832879,Mujer,Radio,1
86,1086,1,64,166,63,1,5,22.862534,Mujer,Radio,2
45,1045,0,58,173,85,1,5,28.400548,Hombre,Radio,2
95,1095,1,22,172,64,1,5,21.633315,Mujer,Radio,3
64,1064,1,51,172,51,0,5,17.239048,Mujer,Quimio,4
41,1041,0,56,172,63,0,5,21.295295,Hombre,Quimio,3
25,1025,0,50,172,62,0,5,20.957274,Hombre,Quimio,4
87,1087,1,20,171,67,1,5,22.913033,Mujer,Radio,5
18,1018,0,42,180,82,0,5,25.308642,Hombre,Quimio,5


In [193]:
grouped.groupby('sexo').head(5)

Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,imc,sexo_label,tratamiento_label,rank_superv
43,1043,0,54,189,75,0,5,20.996053,Hombre,Quimio,1
89,1089,1,44,158,57,1,5,22.832879,Mujer,Radio,1
86,1086,1,64,166,63,1,5,22.862534,Mujer,Radio,2
45,1045,0,58,173,85,1,5,28.400548,Hombre,Radio,2
95,1095,1,22,172,64,1,5,21.633315,Mujer,Radio,3
64,1064,1,51,172,51,0,5,17.239048,Mujer,Quimio,4
41,1041,0,56,172,63,0,5,21.295295,Hombre,Quimio,3
25,1025,0,50,172,62,0,5,20.957274,Hombre,Quimio,4
87,1087,1,20,171,67,1,5,22.913033,Mujer,Radio,5
18,1018,0,42,180,82,0,5,25.308642,Hombre,Quimio,5


# Ejercicios

1 - Calcula la supervivencia media de los participantes del estudio

In [196]:
print 'La supervivencia media es:', df['supervivencia'].mean()

La supervivencia media es: 3.31


2 - Calcula cuantos sobreviven mas que la media. Y mas que la mediana?. El porcentaje de cada uno de los casos?

In [232]:
print 'El numero de personas que sobreviven mas que la media es: %d y su porcentaje es el %d ' % (df[df['supervivencia']>df['supervivencia'].mean()].shape[0],df[df['supervivencia']>df['supervivencia'].mean()].shape[0]*100/df.shape[0])

print df.shape
print df[df['supervivencia']>df['supervivencia'].mean()].shape[0]*100 /  df.shape[0]
print '\n'

print 'El numero de personas que sobreviven mas que la media es: %d y su porcentaje es el %d ' % (df[df['supervivencia']>df['supervivencia'].mean()].shape[0],df[df['supervivencia']>df['supervivencia'].mean()].shape[0]*100/df.shape[0])

El numero de personas que sobreviven mas que la media es: 39 y su porcentaje es el 39 
(100, 10)
39


El numero de personas que sobreviven mas que la media es: 39 y su porcentaje es el 39 


3 - Cual es el grupo de personas (hombre o mujer) con mayor supervivencia?

In [238]:
df.groupby('sexo_label').mean()

Unnamed: 0_level_0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,imc
sexo_label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Hombre,1024.5,0,44.94,173.14,73.08,0.5,3.06,24.530407
Mujer,1074.5,1,45.46,162.1,60.36,0.42,3.56,23.085718


4 - Que tratamiento alarga mas la supervivencia la quimio o  la radio?

In [237]:
df.groupby('tratamiento_label').mean()

Unnamed: 0_level_0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,imc
tratamiento_label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Quimio,1049.277778,0.537037,46.685185,165.685185,67.981481,0,3.5,24.768768
Radio,1049.76087,0.456522,43.456522,169.891304,65.23913,1,3.086957,22.680277


5 - En que grupo Hombre/Mujer y quimio/radio hay mayor supervivencia?

In [248]:
max(df[['sexo_label','tratamiento_label',
    'supervivencia']].groupby(['sexo_label',
                               'tratamiento_label']).mean().supervivencia.values)

3.6551724137931036

In [256]:
df[['sexo_label','tratamiento_label',
    'supervivencia']].groupby(['sexo_label',
                               'tratamiento_label']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,supervivencia
sexo_label,tratamiento_label,Unnamed: 2_level_1
Hombre,Quimio,3.32
Hombre,Radio,2.8
Mujer,Quimio,3.655172
Mujer,Radio,3.428571


6 - Asigna a una nueva columna que marque como ancianos a los mayores de 60 anios y jovenes al resto?

In [4]:
def ancianos(df = None):
    if df['edad'] > 60:
        return 'anciano'
    else:
        return 'joven'

In [5]:
df['grupo_edad'] = df.apply(ancianos, axis=1)
df.head()

Unnamed: 0,idsub,sexo,edad,altura,peso,tratamiento,supervivencia,grupo_edad
0,1000,0,61,166,74,1,2,anciano
1,1001,0,21,179,89,1,4,joven
2,1002,0,59,166,59,1,2,joven
3,1003,0,27,162,81,0,2,joven
4,1004,0,23,164,69,1,2,joven


7 - Puedes ver si las mujeres que pesan mas de 60 kilos sobreviven mas que las que pesan menos??

In [14]:
print df[(df.peso>60) & (df.sexo_label=='Mujer')].supervivencia.mean()
print df[(df.peso<60) & (df.sexo_label=='Mujer')].supervivencia.mean()


3.74074074074
3.36363636364


8 - Parece influir si uno es anciano o no en la supervivencia??

In [8]:
df.groupby('grupo_edad').supervivencia.mean()

grupo_edad
anciano    3.166667
joven      3.341463
Name: supervivencia, dtype: float64

9 - Crea una nueva columna que te clasifique a las personas en base a su indice corporal segun el siguiente crtierio:

Por debajo de 18.5 Por debajo del peso  
18.5 a 24.9	Saludable  
25.0 a 29.9	Con sobrepeso  
30.0 a 39.9	Obeso  
Más de 40	Obesidad extrema o de alto riesgo  

In [16]:
def imc2label(data = None):
    if data['imc'] < 18.5:
        return 'Debajo del peso'
    elif data['imc'] > 18.5 and data['imc'] < 24.9:
        return 'Saludable'
    elif data['imc'] > 24.9 and data['imc'] < 29.9:
        return 'Con sobrepeso'
    elif data['imc'] > 29.9 and data['imc'] < 39.9:
        return 'Obeso'
    else:
        return 'Obesidad extrema'

In [17]:
df['imclabel'] = df.apply(imc2label, axis=1)

10 - Cual es el grupo de imc que mas riesgo de morir antes tiene?

In [20]:
df.groupby('imclabel').supervivencia.mean()

imclabel
Con sobrepeso      3.315789
Debajo del peso    2.833333
Obeso              3.000000
Saludable          3.392157
Name: supervivencia, dtype: float64

11 - Realiza un estudio comparativo que nos diga si existen diferencias entre la supervivencia de hombres y mujeres.

In [36]:
import scipy.stats

#df[df['sexo_label']=='Hombre'].supervivencia
scipy.stats.ttest_ind(df[df['sexo_label']=='Hombre'].supervivencia

, df[df['sexo_label']=='Mujer'].supervivencia)

Ttest_indResult(statistic=-1.902960980752129, pvalue=0.059980732087130909)

12 - Realiza un intervalo de confianza del 95% que nos diga cual es la supervivencia de tratamiento, sexo, grupo de edad y grupo de IMC.

In [40]:
# media +- alpha * sigma / n^.5
# 1.96

def int_conf(data):
    high = data.mean() + 1.96 * data.std() / data.count()**.5
    low = data.mean() - 1.96 * data.std() / data.count()**.5
    return (low, high)

df.groupby('tratamiento_label').supervivencia.apply(int_conf)

tratamiento_label
Quimio    (3.13454593496, 3.86545406504)
Radio     (2.72229865727, 3.45161438621)
Name: supervivencia, dtype: object

13 - Anade una nueva columna al dataframe que nos diga en que percentil de supervivencia se encuentra cada persona.

14 - La OMS ha publicado un estudio en el que se hayaron los siguientes resultados:

- Las personas menores de 40 anios tienen una supervivencia estimada del 15% menor que las mayores de esa edad
- Las mujeres tienen una supervivencia de un 5% mayor respecto a los hombres
- Las personas con sobrepeso tienen una supervivencia menor del 7.5% respecto a las que no padecen sobrepeso

Crea una funcion que utilizando _apply_ nos corrija la supervivencia de cada una de las personas en base a lo descrito anteriormente (lo puedes almacenar en una nueva columna llamada 'supervivencia_est'

Para simplificar puedes asumir que los porcentajes se acumulan de forma que una mujer delgada y anciana tendra una supervivencia estimada aumentada por la suma de todos los porcentajes descritos.