# Python para Economistas: Sexta Clase

### Módulo Pandas:

Pandas es una herramienta de manipulación de datos en Python. El paquete pandas crea un objeto Python con filas y columnas llamado dataframe que se parece mucho a una tabla como en softwares estadísticos como Stata y Excel. Los dataframes permiten al usuario almacenar y manipular datos en filas de observaciones y columnas que tambien son llamadas Series.

<img src="pandas_structure.png" alt="Drawing" style="width: 600px;">
Fuente: https://medium.com/epfl-extension-school/selecting-data-from-a-pandas-dataframe-53917dc39953

In [1]:
import numpy as np
import pandas as pd
import random
import matplotlib.pyplot as plt

#### 1. Creando series y DataFrames:

Las Series son colecciones de datos, son iterables y estan organizados de una manera ordenada. Por otro lado, los Dataframes son colecciones de Series que conforman una base de datos como en la imagen anterior. Las Series y los DataFrames tienen métodos que permiten realizar operaciones sobre esos datos como veremos más adelante.

In [5]:
s = pd.Series(np.random.randn(100))
s1 = pd.Series(np.random.randint(1, 100, 100))
s2 = pd.Series(np.random.normal(0,1,100))
s3 = pd.Series(np.random.uniform(0,1,100))
s4 = pd.Series(np.random.binomial(1,.3,100))

print(s4)

0     0
1     0
2     1
3     1
4     0
     ..
95    1
96    0
97    1
98    1
99    0
Length: 100, dtype: int32

In [26]:
dfDict = {"Random":s, "RandInt":s1, "Normal":s2, "Uniform":s3, "Binomial":s4}
df = pd.DataFrame(dfDict)
print(df)

      Random  RandInt    Normal   Uniform  Binomial
0   1.275942       53 -0.232738  0.992288         0
1  -2.207602       77 -1.293788  0.821314         0
2   1.257717       65 -0.797820  0.152443         1
3   0.554530       18 -0.177128  0.631848         1
4  -0.382855       32  0.228550  0.610171         0
..       ...      ...       ...       ...       ...
95 -0.316396       95  0.858515  0.783301         1
96  0.574769       58 -0.857520  0.535394         0
97 -0.034785       69 -1.837041  0.047396         1
98 -1.552421       65  1.231846  0.393306         1
99 -0.906541       88  0.275902  0.294528         0

[100 rows x 5 columns]


In [8]:
print(df.head(5))

     Random  RandInt    Normal   Uniform  Binomial
0  1.275942       53 -0.232738  0.992288         0
1 -2.207602       77 -1.293788  0.821314         0
2  1.257717       65 -0.797820  0.152443         1
3  0.554530       18 -0.177128  0.631848         1
4 -0.382855       32  0.228550  0.610171         0


In [9]:
print(df.tail(5))

      Random  RandInt    Normal   Uniform  Binomial
95 -0.316396       95  0.858515  0.783301         1
96  0.574769       58 -0.857520  0.535394         0
97 -0.034785       69 -1.837041  0.047396         1
98 -1.552421       65  1.231846  0.393306         1
99 -0.906541       88  0.275902  0.294528         0


#### 2. Indexando Variables:

En pandas podemos indexar de multiples formas, en algunos casos queremos indexar solo columnas y quedarnos con toda la serie de datos que esta abarca. Para ello debemos colocar entre corchetes la lista de variables que deseamos indexar.

In [12]:
df['Uniform'].head() #Indexando una sola columna

0    0.992288
1    0.821314
2    0.152443
3    0.631848
4    0.610171
Name: Uniform, dtype: float64

In [13]:
variableNames = ['Uniform', 'Normal', 'Binomial']
df[variableNames].head() # Indexando mas columnas

Unnamed: 0,Uniform,Normal,Binomial
0,0.992288,-0.232738,0
1,0.821314,-1.293788,0
2,0.152443,-0.79782,1
3,0.631848,-0.177128,1
4,0.610171,0.22855,0


In [14]:
variableNames=['Uniform', 'Normal', 'Binomial']
df[variableNames].head()

Unnamed: 0,Uniform,Normal,Binomial
0,0.992288,-0.232738,0
1,0.821314,-1.293788,0
2,0.152443,-0.79782,1
3,0.631848,-0.177128,1
4,0.610171,0.22855,0


#### 3. Indexando filas:

Así como indexamos columnas, tambien es posible cortar o indexar filas. Para ello utilizamos los comandos 'loc' o 'iloc'. El comando 'loc' permite indexar filas utilizando el indice de la fila (o un boolean array que seleccione las filas que queremos) en el dataframe y columnas usando los nombres de las columnas que queremos incluir en el corte. El comando 'iloc' por su parte permite indexar o cortar la base de datos como si estuvieramos cortando una matriz en numpy utilizando entradas ordinales empezando desde la entrada 0 en adelante.

In [15]:
# Desde la 2da fila hasta la 6ta
print(df.loc[1:5, :])

     Random  RandInt    Normal   Uniform  Binomial
1 -2.207602       77 -1.293788  0.821314         0
2  1.257717       65 -0.797820  0.152443         1
3  0.554530       18 -0.177128  0.631848         1
4 -0.382855       32  0.228550  0.610171         0
5  0.980364       79 -0.392164  0.996459         0


In [16]:
# Desde la 2da fila hasta la 6ta incluyendo solo las variables Normal y Binomial
print(df.loc[1:5, ['Normal', 'Binomial']])

     Normal  Binomial
1 -1.293788         0
2 -0.797820         1
3 -0.177128         1
4  0.228550         0
5 -0.392164         0


In [19]:
# Si queremos solo las filas que tienen valores para RandInt mayor a 30
#indexInt  = df['RandInt'] > 30
#print(pd.DataFrame([indexInt, df['RandInt']]))
df3 = df.loc[df['RandInt'] > 30, :]
print(df3)

      Random  RandInt    Normal   Uniform  Binomial
0   1.275942       53 -0.232738  0.992288         0
1  -2.207602       77 -1.293788  0.821314         0
2   1.257717       65 -0.797820  0.152443         1
4  -0.382855       32  0.228550  0.610171         0
5   0.980364       79 -0.392164  0.996459         0
..       ...      ...       ...       ...       ...
95 -0.316396       95  0.858515  0.783301         1
96  0.574769       58 -0.857520  0.535394         0
97 -0.034785       69 -1.837041  0.047396         1
98 -1.552421       65  1.231846  0.393306         1
99 -0.906541       88  0.275902  0.294528         0

[79 rows x 5 columns]


In [22]:
# Si queremos agregar mas condicionales
df4 = df.loc[(df['RandInt'] > 30) & (df['Binomial'] == 1), :]
print(df4)

      Random  RandInt    Normal   Uniform  Binomial
2   1.257717       65 -0.797820  0.152443         1
6   0.476562       52  1.260049  0.935659         1
7   0.902655       41  0.088066  0.079032         1
11  1.080646       83  2.406169  0.633360         1
14 -1.104845       46 -0.050597  0.540478         1
16 -0.778216       67 -1.555247  0.128352         1
19  1.108137       75 -1.512965  0.642958         1
23 -1.441913       33  0.429093  0.351430         1
35 -0.039039       57  0.426910  0.787875         1
36 -0.011919       53 -0.438533  0.813086         1
42 -0.708585       63 -1.604228  0.372966         1
48 -0.191116       45  1.249497  0.332570         1
57  1.168778       60  1.286332  0.655762         1
59  0.354810       78 -1.936094  0.003238         1
78 -1.317057       44  0.218074  0.926615         1
88  0.546124       31  0.283197  0.172861         1
95 -0.316396       95  0.858515  0.783301         1
97 -0.034785       69 -1.837041  0.047396         1
98 -1.552421

In [23]:
# Si queremos las condiciones anteriores pero solo necesitamos una variable especifica:
condicionalIndexRow = (df['RandInt'] > 30) & (df['Binomial'] == 1)
variableList = ['Normal', 'Uniform']
df5 = df.loc[condicionalIndexRow, variableList]

print(df5)

      Normal   Uniform
2  -0.797820  0.152443
6   1.260049  0.935659
7   0.088066  0.079032
11  2.406169  0.633360
14 -0.050597  0.540478
16 -1.555247  0.128352
19 -1.512965  0.642958
23  0.429093  0.351430
35  0.426910  0.787875
36 -0.438533  0.813086
42 -1.604228  0.372966
48  1.249497  0.332570
57  1.286332  0.655762
59 -1.936094  0.003238
78  0.218074  0.926615
88  0.283197  0.172861
95  0.858515  0.783301
97 -1.837041  0.047396
98  1.231846  0.393306


#### 4. Renombrando variables

Podemos renombrar las variables en una base de datos de dos formas. La primera es utilizando el método rename, e introduciendo como insumo un diccionario con los nombres que queremos reemplazar y sus reemplazos. La segunda es usar el metodo columns y reemplazar el resultado con una lista con los nuevos nombres de variable.

In [24]:
df = df.rename(columns={'Random': 'Random Variable', 'RandInt': 'Random Integer'})
print(df.head())

   Random Variable  Random Integer    Normal   Uniform  Binomial
0         1.275942              53 -0.232738  0.992288         0
1        -2.207602              77 -1.293788  0.821314         0
2         1.257717              65 -0.797820  0.152443         1
3         0.554530              18 -0.177128  0.631848         1
4        -0.382855              32  0.228550  0.610171         0


In [28]:
#print(df.columns)
df.columns = ['Random Variable', 'Random Integer', 'Normal', 'Uniform', 'Binomial']
print(df.head())

   Random Variable  Random Integer    Normal   Uniform  Binomial
0         1.275942              53 -0.232738  0.992288         0
1        -2.207602              77 -1.293788  0.821314         0
2         1.257717              65 -0.797820  0.152443         1
3         0.554530              18 -0.177128  0.631848         1
4        -0.382855              32  0.228550  0.610171         0


#### 5. Emparejando (Merging) bases de datos: 

El emparejamiento de datos es el proceso de combinar dos o más conjuntos de datos en una sola base de datos. A menudo, este proceso es necesario cuando tiene datos sin procesar almacenados en múltiples archivos, que el usuario desea analizar de manera simultanea. Por lo general hacemos merge de dos bases de datos en base a un indicador clave (key variable) que tengan en comun ambas bases de datos. 

<img src="merge_structure.png" alt="Drawing" style="width: 500px;">


In [31]:
dfNew = pd.DataFrame({'Integers': range(100), 'Name': ['Worker Number ' + str(ii) for ii in range(100)]})
print(df)

    Random Variable  Random Integer    Normal   Uniform  Binomial
0          1.275942              53 -0.232738  0.992288         0
1         -2.207602              77 -1.293788  0.821314         0
2          1.257717              65 -0.797820  0.152443         1
3          0.554530              18 -0.177128  0.631848         1
4         -0.382855              32  0.228550  0.610171         0
..              ...             ...       ...       ...       ...
95        -0.316396              95  0.858515  0.783301         1
96         0.574769              58 -0.857520  0.535394         0
97        -0.034785              69 -1.837041  0.047396         1
98        -1.552421              65  1.231846  0.393306         1
99        -0.906541              88  0.275902  0.294528         0

[100 rows x 5 columns]


In [33]:
dfMerged1 = pd.merge(df,dfNew, left_on='Random Integer', right_on = 'Integers', how= 'inner', indicator=True)
print(dfMerged1)
dfMerged1._merge.value_counts()

    Random Variable  Random Integer    Normal   Uniform  Binomial  Integers  \
0          1.275942              53 -0.232738  0.992288         0        53   
1          1.608246              53 -0.234639  0.417768         0        53   
2         -0.011919              53 -0.438533  0.813086         1        53   
3         -2.207602              77 -1.293788  0.821314         0        77   
4          1.257717              65 -0.797820  0.152443         1        65   
..              ...             ...       ...       ...       ...       ...   
95         0.061713              49  0.866739  0.996784         0        49   
96        -0.824031              56 -0.893802  0.502938         0        56   
97        -1.908063              98 -1.012320  0.146110         0        98   
98         0.702065              51 -1.121909  0.822212         0        51   
99        -0.034785              69 -1.837041  0.047396         1        69   

                Name _merge  
0   Worker Number 53 

both          100
right_only      0
left_only       0
Name: _merge, dtype: int64

In [34]:
dfMerged2 = pd.merge(df,dfNew, left_on='Random Integer', right_on = 'Integers', how= 'right', indicator=True)
dfMerged2._merge.value_counts()

both          100
right_only     42
left_only       0
Name: _merge, dtype: int64

In [36]:
dfMerged3 = pd.merge(df,dfNew, left_on='Random Integer', right_on = 'Integers', how= 'left', indicator=True)
dfMerged3._merge.value_counts()

both          100
right_only      0
left_only       0
Name: _merge, dtype: int64

#### 6. Otros Métodos:

In [37]:
# Eliminar una variable:
dfMerged3.drop(columns=['_merge'], inplace = True)

dfMergedCopy = dfMerged3.copy()

In [38]:
# Sobreponer dataframes:
dfAppend = dfMerged3.append(dfMergedCopy)
print(dfAppend)

    Random Variable  Random Integer    Normal   Uniform  Binomial  Integers  \
0          1.275942              53 -0.232738  0.992288         0        53   
1         -2.207602              77 -1.293788  0.821314         0        77   
2          1.257717              65 -0.797820  0.152443         1        65   
3          0.554530              18 -0.177128  0.631848         1        18   
4         -0.382855              32  0.228550  0.610171         0        32   
..              ...             ...       ...       ...       ...       ...   
95        -0.316396              95  0.858515  0.783301         1        95   
96         0.574769              58 -0.857520  0.535394         0        58   
97        -0.034785              69 -1.837041  0.047396         1        69   
98        -1.552421              65  1.231846  0.393306         1        65   
99        -0.906541              88  0.275902  0.294528         0        88   

                Name  
0   Worker Number 53  
1   W

In [39]:
# Query un Dataframe:

print(dfAppend.columns)

q = ('(Binomial == %s) ' '& (Normal <= %s) ' '& (Uniform >= %s)') % (1,1,.5)
print(q)
reportCases = dfAppend.query(q)
print(reportCases)


Index(['Random Variable', 'Random Integer', 'Normal', 'Uniform', 'Binomial',
       'Integers', 'Name'],
      dtype='object')
(Binomial == 1) & (Normal <= 1) & (Uniform >= 0.5)
    Random Variable  Random Integer    Normal   Uniform  Binomial  Integers  \
3          0.554530              18 -0.177128  0.631848         1        18   
14        -1.104845              46 -0.050597  0.540478         1        46   
19         1.108137              75 -1.512965  0.642958         1        75   
35        -0.039039              57  0.426910  0.787875         1        57   
36        -0.011919              53 -0.438533  0.813086         1        53   
40        -0.821628              16  0.354707  0.710456         1        16   
54         0.549837              29 -0.220009  0.521880         1        29   
55        -0.344773               3  0.767323  0.884198         1         3   
76        -0.270785              15  0.074125  0.671066         1        15   
78        -1.317057             