# Python para Economistas: Quinta Clase

#### 1. Módulo Pandas:

Pandas es una herramienta de manipulación de datos en Python. El paquete pandas crea un objeto Python con filas y columnas llamado dataframe que se parece mucho a una tabla como en softwares estadísticos como Stata y Excel. Los dataframes permiten al usuario almacenar y manipular datos en filas de observaciones y columnas que tambien son llamadas Series.

<img src="pandas_structure.png" alt="Drawing" style="width: 600px;">
Fuente: https://medium.com/epfl-extension-school/selecting-data-from-a-pandas-dataframe-53917dc39953

In [3]:
import numpy as np
import pandas as pd
import random
import matplotlib.pyplot as plt

#### 1. Creando series y DataFrames:

Las Series son colecciones de datos, son iterables y estan organizados de una manera ordenada. Por otro lado, los Dataframes son colecciones de Series que conforman una base de datos como en la imagen anterior. Las Series y los DataFrames tienen métodos que permiten realizar operaciones sobre esos datos como veremos más adelante.

In [6]:
s = pd.Series(np.random.randn(100))
s1 = pd.Series(np.random.randint(1, 100, 100))
s2 = pd.Series(np.random.normal(0,1,100))
s3 = pd.Series(np.random.uniform(0,1,100))
s4 = pd.Series(np.random.binomial(1,.3,100))

print(s)

0    -1.206576
1     1.955862
2     0.602736
3    -0.233825
4    -0.263275
        ...   
95   -0.658316
96    1.483740
97   -0.078586
98    0.652969
99    0.898487
Length: 100, dtype: float64


In [7]:
df = pd.DataFrame({"Random":s, "RandInt":s1, "Normal":s2, "Uniform":s3, "Binomial":s4})
print(df)

      Random  RandInt    Normal   Uniform  Binomial
0  -1.206576       29 -1.614901  0.724084         0
1   1.955862       17  0.510943  0.845493         0
2   0.602736       78  0.054672  0.409102         0
3  -0.233825       15  1.219210  0.856543         0
4  -0.263275       22  0.535132  0.482032         0
..       ...      ...       ...       ...       ...
95 -0.658316       42  0.567436  0.615567         0
96  1.483740       25  0.035844  0.459035         0
97 -0.078586       81 -0.238108  0.133608         0
98  0.652969       33  1.280115  0.361999         0
99  0.898487       40 -0.580155  0.905068         1

[100 rows x 5 columns]


In [10]:
print(df.head(5))

     Random  RandInt    Normal   Uniform  Binomial
0 -1.206576       29 -1.614901  0.724084         0
1  1.955862       17  0.510943  0.845493         0
2  0.602736       78  0.054672  0.409102         0
3 -0.233825       15  1.219210  0.856543         0
4 -0.263275       22  0.535132  0.482032         0


In [9]:
print(df.tail(5))

      Random  RandInt    Normal   Uniform  Binomial
95 -0.658316       42  0.567436  0.615567         0
96  1.483740       25  0.035844  0.459035         0
97 -0.078586       81 -0.238108  0.133608         0
98  0.652969       33  1.280115  0.361999         0
99  0.898487       40 -0.580155  0.905068         1


#### 2. Indexando Variables:

En pandas podemos indexar de multiples formas, en algunos casos queremos indexar solo columnas y quedarnos con toda la serie de datos que esta abarca. Para ello debemos colocar entre corchetes la lista de variables que deseamos indexar.

In [12]:
df['Uniform'].head() #Indexando una sola columna

0    0.724084
1    0.845493
2    0.409102
3    0.856543
4    0.482032
Name: Uniform, dtype: float64

In [14]:
df[['Uniform', 'Normal', 'Binomial']].head() # Indexando mas columnas

Unnamed: 0,Uniform,Normal,Binomial
0,0.724084,-1.614901,0
1,0.845493,0.510943,0
2,0.409102,0.054672,0
3,0.856543,1.21921,0
4,0.482032,0.535132,0


In [16]:
variableNames=['Uniform', 'Normal', 'Binomial']
df[variableNames].head()

Unnamed: 0,Uniform,Normal,Binomial
0,0.724084,-1.614901,0
1,0.845493,0.510943,0
2,0.409102,0.054672,0
3,0.856543,1.21921,0
4,0.482032,0.535132,0


#### 3. Indexando filas:

Así como indexamos columnas, tambien es posible cortar o indexar filas. Para ello utilizamos los comandos 'loc' o 'iloc'. El comando 'loc' permite indexar filas utilizando el indice de la fila (o un boolean array que seleccione las filas que queremos) en el dataframe y columnas usando los nombres de las columnas que queremos incluir en el corte. El comando 'iloc' por su parte permite indexar o cortar la base de datos como si estuvieramos cortando una matriz en numpy utilizando entradas ordinales empezando desde la entrada 0 en adelante.

In [21]:
# Desde la 2da fila hasta la 6ta
print(df.loc[1:5, :])

     Random  RandInt    Normal   Uniform  Binomial
1  1.955862       17  0.510943  0.845493         0
2  0.602736       78  0.054672  0.409102         0
3 -0.233825       15  1.219210  0.856543         0
4 -0.263275       22  0.535132  0.482032         0
5  0.548485       81  1.017062  0.963790         0


In [22]:
# Desde la 2da fila hasta la 6ta incluyendo solo las variables Normal y Binomial
print(df.loc[1:5, ['Normal', 'Binomial']])

     Normal  Binomial
1  0.510943         0
2  0.054672         0
3  1.219210         0
4  0.535132         0
5  1.017062         0


In [25]:
# Si queremos solo las filas que tienen valores para RandInt mayor a 30
df3 = df.loc[df['RandInt'] > 30, :]
print(df3)

      Random  RandInt    Normal   Uniform  Binomial
2   0.602736       78  0.054672  0.409102         0
5   0.548485       81  1.017062  0.963790         0
6  -0.719832       46  0.335371  0.043163         0
8   0.589355       34  2.405400  0.453044         0
9   0.877465       37  1.113587  0.738872         1
..       ...      ...       ...       ...       ...
93 -1.812102       98  0.322207  0.758578         0
95 -0.658316       42  0.567436  0.615567         0
97 -0.078586       81 -0.238108  0.133608         0
98  0.652969       33  1.280115  0.361999         0
99  0.898487       40 -0.580155  0.905068         1

[68 rows x 5 columns]


In [27]:
# Si queremos agregar mas condicionales
df4 = df.loc[(df['RandInt'] > 30) & (df['Binomial'] == 1), :]
print(df4)

      Random  RandInt    Normal   Uniform  Binomial
9   0.877465       37  1.113587  0.738872         1
13  0.131757       80 -0.247813  0.988276         1
15  0.829685       96  0.063936  0.119724         1
20 -0.174764       78  0.275353  0.421016         1
21 -0.319370       66  0.592553  0.462788         1
26  0.939473       56 -1.217726  0.813035         1
36  0.025737       91  0.290470  0.626565         1
45  0.451145       68 -1.806502  0.896124         1
52  0.740298       95 -1.480832  0.762288         1
62  0.910093       62  0.116282  0.365833         1
73 -0.393653       57 -1.167523  0.596135         1
77  1.388732       97  0.683599  0.902483         1
99  0.898487       40 -0.580155  0.905068         1


In [28]:
# Si queremos las condiciones anteriores pero solo necesitamos una variable especifica:
df5 = df.loc[(df['RandInt'] > 30) & (df['Binomial'] == 1), ['Normal', 'Uniform']]
print(df5)

      Normal   Uniform
9   1.113587  0.738872
13 -0.247813  0.988276
15  0.063936  0.119724
20  0.275353  0.421016
21  0.592553  0.462788
26 -1.217726  0.813035
36  0.290470  0.626565
45 -1.806502  0.896124
52 -1.480832  0.762288
62  0.116282  0.365833
73 -1.167523  0.596135
77  0.683599  0.902483
99 -0.580155  0.905068


#### 4. Renombrando variables

Podemos renombrar las variables en una base de datos de dos formas. La primera es utilizando el método rename, e introduciendo como insumo un diccionario con los nombres que queremos reemplazar y sus reemplazos. La segunda es usar el metodo columns y reemplazar el resultado con una lista con los nuevos nombres de variable.

In [31]:
df = df.rename(columns={'Random': 'Random Variable', 'RandInt': 'Random Integer'})
print(df.head())

   Random Variable  Random Integer    Normal   Uniform  Binomial
0        -1.206576              29 -1.614901  0.724084         0
1         1.955862              17  0.510943  0.845493         0
2         0.602736              78  0.054672  0.409102         0
3        -0.233825              15  1.219210  0.856543         0
4        -0.263275              22  0.535132  0.482032         0


In [34]:
df.columns = ['Random Variable', 'Random Integer', 'Normal', 'Uniform', 'Binomial']
print(df.head())

   Random Variable  Random Integer    Normal   Uniform  Binomial
0        -1.206576              29 -1.614901  0.724084         0
1         1.955862              17  0.510943  0.845493         0
2         0.602736              78  0.054672  0.409102         0
3        -0.233825              15  1.219210  0.856543         0
4        -0.263275              22  0.535132  0.482032         0


#### 5. Emparejando (Merging) bases de datos: 

El emparejamiento de datos es el proceso de combinar dos o más conjuntos de datos en una sola base de datos. A menudo, este proceso es necesario cuando tiene datos sin procesar almacenados en múltiples archivos, que el usuario desea analizar de manera simultanea. Por lo general hacemos merge de dos bases de datos en base a un indicador clave (key variable) que tengan en comun ambas bases de datos. 

<img src="merge_structure.png" alt="Drawing" style="width: 500px;">


In [37]:
dfNew = pd.DataFrame({'Integers': range(100), 'Name': ['Worker Number ' + str(ii) for ii in range(100)]})

In [39]:
dfMerged1 = pd.merge(df,dfNew, left_on='Random Integer', right_on = 'Integers', how= 'inner', indicator=True)
dfMerged1._merge.value_counts()

both          100
right_only      0
left_only       0
Name: _merge, dtype: int64

In [41]:
dfMerged2 = pd.merge(df,dfNew, left_on='Random Integer', right_on = 'Integers', how= 'right', indicator=True)
dfMerged2._merge.value_counts()

both          100
right_only     35
left_only       0
Name: _merge, dtype: int64

In [43]:
dfMerged3 = pd.merge(df,dfNew, left_on='Random Integer', right_on = 'Integers', how= 'left', indicator=True)
dfMerged3._merge.value_counts()

both          100
right_only      0
left_only       0
Name: _merge, dtype: int64

#### 6. Otros Métodos:

In [45]:
# Eliminar una variable:
dfMerged3.drop(columns=['_merge'], inplace = True)

dfMergedCopy = dfMerged3.copy()

In [46]:
# Sobreponer dataframes:
dfAppend = dfMerged3.append(dfMergedCopy)


In [48]:
# Query un Dataframe:

print(dfAppend.columns)

q = ('(Binomial == %s) ' '& (Normal <= %s) ' '& (Uniform >= %s)') % (1,1,.5)
print(q)
reportCases = dfAppend.query(q)
print(reportCases)


Index(['Random Variable', 'Random Integer', 'Normal', 'Uniform', 'Binomial',
       'Integers', 'Name'],
      dtype='object')
(Binomial == 1) & (Normal <= 1) & (Uniform >= 0.5)
    Random Variable  Random Integer    Normal   Uniform  Binomial  Integers  \
13         0.131757              80 -0.247813  0.988276         1        80   
26         0.939473              56 -1.217726  0.813035         1        56   
33         0.280138              26 -0.402512  0.829243         1        26   
36         0.025737              91  0.290470  0.626565         1        91   
42         0.207308              22  0.724003  0.813287         1        22   
45         0.451145              68 -1.806502  0.896124         1        68   
52         0.740298              95 -1.480832  0.762288         1        95   
53        -0.066850              14  0.317697  0.774299         1        14   
73        -0.393653              57 -1.167523  0.596135         1        57   
77         1.388732             