In [32]:
import pandas as pd
import numpy as np

# Indexing and column rearrangement

Existen circunstancias en las cuales podemos desear cambiar el orden de las columnas de nuestro DataFrame. Esto lo podemos hacer seleccionando de nuestro DataFrame las columnas deseadas en el orden deseado.

In [8]:
#Cargamos los datos
df = pd.read_csv('pennsylvania2012_turnout.csv', index_col = 'county')

#Comprobamos la carga correcta de los datos
df.head(3)

Unnamed: 0_level_0,state,total,Obama,Romney,winner,voters,turnout,margin
county,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Adams,PA,41973,35.482334,63.112001,Romney,61156,68.632677,27.629667
Allegheny,PA,614671,56.640219,42.18582,Obama,924351,66.497575,14.454399
Armstrong,PA,28322,30.696985,67.901278,Romney,42147,67.19814,37.204293


In [9]:
#Seleccionamos nuestro nuevo DataFrame
results = df[['winner', 'total', 'voters']]

#Vemos el resultado 
results.head(3)

Unnamed: 0_level_0,winner,total,voters
county,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Adams,Romney,41973,61156
Allegheny,Obama,614671,924351
Armstrong,Romney,28322,42147


# Slicing rows

El dataset de los resultados electorales en Pennsylvania está ordenado por nombre del condado. Esto significa que los nombres de los condados pueden ser seleccionados de forma alfabética. 

In [11]:
#Seleccionamos los resultados para los condados que van entre Perry y Potter
df.loc['Perry': 'Potter']

Unnamed: 0_level_0,state,total,Obama,Romney,winner,voters,turnout,margin
county,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Perry,PA,18240,29.769737,68.591009,Romney,27245,66.948064,38.821272
Philadelphia,PA,653598,85.224251,14.051451,Obama,1099197,59.461407,71.1728
Pike,PA,23164,43.904334,54.882576,Romney,41840,55.363289,10.978242
Potter,PA,7205,26.259542,72.158223,Romney,10913,66.022175,45.898681


In [13]:
#Seleccionamos estos mismos datos pero en orden inverso 
df.loc['Potter':'Perry':-1]

Unnamed: 0_level_0,state,total,Obama,Romney,winner,voters,turnout,margin
county,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Potter,PA,7205,26.259542,72.158223,Romney,10913,66.022175,45.898681
Pike,PA,23164,43.904334,54.882576,Romney,41840,55.363289,10.978242
Philadelphia,PA,653598,85.224251,14.051451,Obama,1099197,59.461407,71.1728
Perry,PA,18240,29.769737,68.591009,Romney,27245,66.948064,38.821272


# Slicing columns

Similar a como hemos seleccionado múltiples filas, podemos seleccionar múltiples columnas.

In [16]:
#Seleccionamos desde la primera columna hasta Obama
df.loc[:, :'Obama'].head(3)

Unnamed: 0_level_0,state,total,Obama
county,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Adams,PA,41973,35.482334
Allegheny,PA,614671,56.640219
Armstrong,PA,28322,30.696985


In [18]:
#Seleccionamos las columnas entre Obama y winner
df.loc[:,'Obama':'winner'].head(3)

Unnamed: 0_level_0,Obama,Romney,winner
county,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Adams,35.482334,63.112001,Romney
Allegheny,56.640219,42.18582,Obama
Armstrong,30.696985,67.901278,Romney


In [20]:
#Seleccionamos desde Romney hasta el final 
df.loc[:,'Romney':].head(3)

Unnamed: 0_level_0,Romney,winner,voters,turnout,margin
county,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Adams,63.112001,Romney,61156,68.632677,27.629667
Allegheny,42.18582,Obama,924351,66.497575,14.454399
Armstrong,67.901278,Romney,42147,67.19814,37.204293


# Subselecting DataFrames with lists

Podemos hacer uso de listas a la hora de seleccionar filas y columnas específicas haciendo uso de **iloc**.

In [24]:
#Nos creamos una lista con las columnas que deseamos seleccionar
rows = ['Philadelphia', 'Centre', 'Fulton']

#Nos creamos una lista con las filas que deseamos seleccionar
columns = ['winner', 'Obama', 'Romney']

#Seleccionamos las columas y las filas indicadas
df.loc[rows, columns]

Unnamed: 0_level_0,winner,Obama,Romney
county,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Philadelphia,Obama,85.224251,14.051451
Centre,Romney,48.948416,48.977486
Fulton,Romney,21.096291,77.748861


# Thresholding data

La columna **turnout** de nuestro conjunto de datos Pennsylvania nos indica el porcentaje de votos obtenidos por el ganador en cada estado. A continuación vamos a filtar nuestro conjunto de datos por aquellos estados en los que el ganado obtuvo más de un 70% de los votos.

In [28]:
#Obtenemos un array booleana para cada una de los estados, donde el valor True indica que cumple la condición
#impuesta y el valor False indica que no cumple la condición impuesta.
filt = df.turnout > 70

#Filtramos nuestra DataFrame a partir del filtrado
print(df[filt])

             state   total      Obama     Romney  winner  voters    turnout  \
county                                                                        
Bucks           PA  319407  49.966970  48.801686   Obama  435606  73.324748   
Butler          PA   88924  31.920516  66.816607  Romney  122762  72.436096   
Chester         PA  248295  49.228539  49.650617  Romney  337822  73.498766   
Forest          PA    2308  38.734835  59.835355  Romney    3232  71.410891   
Franklin        PA   62802  30.110506  68.583803  Romney   87406  71.850903   
Montgomery      PA  401787  56.637223  42.286834   Obama  551105  72.905708   
Westmoreland    PA  168709  37.567646  61.306154  Romney  238006  70.884347   

                 margin  
county                   
Bucks          1.165284  
Butler        34.896091  
Chester        0.422079  
Forest        21.100520  
Franklin      38.473297  
Montgomery    14.350390  
Westmoreland  23.738508  


# Filtering columns using other columns

La columna **margin** nos indica el número de votos extra que recibió el candidato ganador respecto al perdedor. Este número se da como un porcentaje respecto al total de los votos realizados. A continuación vamos a proceder a ver quienes fueron los ganadores para aquellos condados en los que esta valor fue inferior al 1%.

In [30]:
#Vemos los ganadores que cumplieron que el valor de margin es menor al 1%
print(df[df['margin'] < 1]['winner'])

county
Berks      Romney
Centre     Romney
Chester    Romney
Name: winner, dtype: object


In [37]:
#Ahora en aquellos estados que se cumpla esto vamos a darle el valor de NaN al ganador
df.loc[df['margin'] < 1, 'winner'] = np.nan

#Vemos la info
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 67 entries, Adams to York
Data columns (total 8 columns):
state      67 non-null object
total      67 non-null int64
Obama      67 non-null float64
Romney     67 non-null float64
winner     64 non-null object
voters     67 non-null int64
turnout    67 non-null float64
margin     67 non-null float64
dtypes: float64(4), int64(2), object(2)
memory usage: 7.2+ KB


# Filtering using NaNs

En determinadas situaciones es posible que queramos eliminar filas/columnas debido a que contienen un elevado porcentaje de valores perdidos. El método **dropna()** nos permite esto. 

In [38]:
#Cargamos los datos
titanic = pd.read_csv('titanic.csv')

#Vemos que la carga se realizó de forma adecuada
titanic.head(3)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


In [55]:
#Nos quedamos con aquellas filas en los que la columna age no tenga valores perdidos
titanic_filter = titanic.loc[titanic['age'].notnull()].reset_index().drop('index', axis = 1)

#Vemos el número de filas eliminadas
print('Se eliminaron {} observaciones'.format(titanic.shape[0] - titanic_filter.shape[0]))

Se eliminaron 263 observaciones


También podemos eliminar aquellas filas que contienen valores perdidos las columnas age y cabin.

In [57]:
#Seleccionamos los datos
titanic_aux = titanic.loc[:, ['age', 'cabin']]

#Eliminamos aquellas filas que contienen valores perdidos en alguna de estas dos variables
titanic_aux.dropna(how = 'any').shape

(272, 2)

In [60]:
#Eliminar aquellas filas que cumplen que son valores perdidos en las dos variables
titanic_aux.dropna(how = 'all').shape

(1069, 2)

# Using apply() to transform a column

El método **apply()** puede ser usado en un Pandas DataFrame para aplicar una función arbitraria a cada uno de sus elementos. Vamos aplicar una función para pasar de grados Fahrenheit a grados Celsius.

In [61]:
#Cargamos los datos
df = pd.read_csv('pittsburgh2013.csv')

#Vemos la carga
df.head(3)

Unnamed: 0,Date,Max TemperatureF,Mean TemperatureF,Min TemperatureF,Max Dew PointF,Mean Dew PointF,Min DewpointF,Max Humidity,Mean Humidity,Min Humidity,...,Max VisibilityMiles,Mean VisibilityMiles,Min VisibilityMiles,Max Wind SpeedMPH,Mean Wind SpeedMPH,Max Gust SpeedMPH,PrecipitationIn,CloudCover,Events,WindDirDegrees
0,2013-1-1,32,28,21,30,27,16,100,89,77,...,10,6,2,10,8,,0.0,8,Snow,277
1,2013-1-2,25,21,17,14,12,10,77,67,55,...,10,10,10,14,5,,0.0,4,,272
2,2013-1-3,32,24,16,19,15,9,77,67,56,...,10,10,10,17,8,26.0,0.0,3,,229


In [75]:
#Nos creamos la función para pasar de grados Fahrenheit a Celsius
def to_celsius(F):
    return 5/9*(F - 32)

In [76]:
#Aplicamos la función a cada uno de los elementos de las columnas que deseamos cambiar a grados celsius
df_celsius = df[['Mean TemperatureF', 'Mean Dew PointF']].apply(to_celsius, axis = 1)

In [77]:
#Renombramos las columnas
df_celsius.columns = ['Mean TemperatureC', 'Mean Dew PointC']

In [78]:
#Vemos el resultado
df_celsius.head(3)

Unnamed: 0,Mean TemperatureC,Mean Dew PointC
0,-2.222222,-2.777778
1,-6.111111,-11.111111
2,-4.444444,-9.444444


# Using .map() with a dictionary

La función map es usada para transformar valores de acuerda a un diccionario. 

In [81]:
#Cargamos los datos
df = pd.read_csv('pennsylvania2012_turnout.csv', index_col = 'county')

#Nos creamos el diccionario que usaremos para mapear
red_vs_blue = {'Obama': 'blue', 'Romney': 'red'}

#Nos creamos una nueva columna que se llamará 'color' que sera el mapeo de la columna winner
df['color'] = df['winner'].map(red_vs_blue)

#Vemos el resultado
df.head(3)

Unnamed: 0_level_0,state,total,Obama,Romney,winner,voters,turnout,margin,color
county,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Adams,PA,41973,35.482334,63.112001,Romney,61156,68.632677,27.629667,red
Allegheny,PA,614671,56.640219,42.18582,Obama,924351,66.497575,14.454399,blue
Armstrong,PA,28322,30.696985,67.901278,Romney,42147,67.19814,37.204293,red


# Using vectorized functions

Hacer uso de funciones vectorizadas nos evita tener que ejecutar bucles y además nos permite correr el código de forma más eficiente ya que las funciones vectorizadas están escritas bajo código muy eficiente como puede ser: C, Fortran, etc. A continuación vamos hacer uso de la función **zscore** de Scipy, que nos permite calcular la desviación en participantes respecto de la media en número de desviaciones estándar.

In [84]:
#Importamos zscore de scipy
from scipy.stats import zscore

#Calculamos el zscore de la columna turnout
turnout_zscore = zscore(df['turnout'])

#Vemos el tipo de dato que retorna
print(type(turnout_zscore))

<class 'numpy.ndarray'>


In [85]:
#Agregamos una nueva columna a nuestro dataframe
df.loc[:, 'zscore_turnout'] = turnout_zscore

#Vemos el resultaod
df.head(3)

Unnamed: 0_level_0,state,total,Obama,Romney,winner,voters,turnout,margin,color,zscore_turnout
county,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Adams,PA,41973,35.482334,63.112001,Romney,61156,68.632677,27.629667,red,0.853734
Allegheny,PA,614671,56.640219,42.18582,Obama,924351,66.497575,14.454399,blue,0.439846
Armstrong,PA,28322,30.696985,67.901278,Romney,42147,67.19814,37.204293,red,0.57565


In [88]:
#Podemos ver que estado se desvió más respecto a la media en número de desviaciones estándar
df[df['zscore_turnout'] == df['zscore_turnout'].max()]

Unnamed: 0_level_0,state,total,Obama,Romney,winner,voters,turnout,margin,color,zscore_turnout
county,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Chester,PA,248295,49.228539,49.650617,Romney,337822,73.498766,0.422079,red,1.797022


Podemos ver que el estado de Chester se desvió respecto de la media 1.79*sigma.