# Pandas 
Esta notebook tiene dos objetivos:

1. El principal es familiarizarse con los DataFrames de Pandas, manipular sus funciones básicas y entender la lógica de las mismas (para después googlearlas!).
2. Empezar a trabajar con Datasets (más) reales.

### ¡Manos a la obra!
Primero, importamos las librerías necesarias y los comandos que son necesarios ejecutar una única vez.

In [1]:
import pandas as pd

Como primer paso, vamos a crear nuestro propio dataset. Es decir, agarrar a mano los datos poblacionales de http://www.ign.gob.ar/nuestrasactividades/geografia/datosargentina/divisionpolitica y guardarlos en una variable "data_dic".¿Qué tipo de variable es?

**Nota**: la población está en número de habitantes y la superficie en km2.

In [2]:
data_dic = {"Jurisdiccion":["CABA","Buenos Aires","Catamarca","Chaco","Chubut","Córdoba","Jujuy","Mendoza","Misiones","Río Negro","Santa Cruz",
                           "Santa Fe"],"Poblacion":[2890151,15625084,367828,1055259,99633,3308876,673307,1738929,
                                                   1101593,638645,273964,3194537],"Superficie":
           [200,307521,102606,99633,509108,165321,53219,148827,29801,203013,243943,133007]}

In [3]:
# Creamos el DataFrame
data_pandas = pd.DataFrame(data_dic)
data_pandas

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,CABA,2890151,200
1,Buenos Aires,15625084,307521
2,Catamarca,367828,102606
3,Chaco,1055259,99633
4,Chubut,99633,509108
5,Córdoba,3308876,165321
6,Jujuy,673307,53219
7,Mendoza,1738929,148827
8,Misiones,1101593,29801
9,Río Negro,638645,203013


**Ejercicio 1:** Haciéndonos amigos de los DF.  
* ¿Qué tipo de variable es "data_dic"?
* Investigar las funciones que se implementan en la próxima celda. ¿Qué hacen? ¿Para qué piensan que pueden ser útiles?

In [4]:
# data_pandas.head()
# data_pandas.tail()
# data_pandas.count()
# data_pandas.shape
data_pandas.describe()
# data_pandas.info()
# data_pandas.Jurisdiccion.value_counts()
# data_pandas.Jurisdiccion.unique()


Unnamed: 0,Poblacion,Superficie
count,12.0,12.0
mean,2580650.0,166349.916667
std,4265776.0,139401.821994
min,99633.0,200.0
25%,570940.8,88029.5
50%,1078426.0,140917.0
75%,2966248.0,213245.5
max,15625080.0,509108.0


**Ejercicio 2:** Agregar al Dataset la información correspondiente a alguna jurisdicción faltante. Recuerden que, al tratarse de una nueva instancia, corresponde a una fila. Pista: googlear "add row to pandas dataframe" o similar.

In [5]:
data_pandas.loc[12] = ['Salta',1214441,155488]
# data_pandas.loc[3, 'Jurisdiccion']
# data_pandas.iloc[2, [0]]
data_pandas.iloc[10:13, 0:3]

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
10,Santa Cruz,273964,243943
11,Santa Fe,3194537,133007
12,Salta,1214441,155488


**Ejercicio 3:** Investigar las funciones columns e index. ¿Qué hacen? ¿Qué tipo de variable es su salida?

In [6]:
# data_pandas.columns
# data_pandas.index
# data_pandas.Jurisdiccion.unique()
data_pandas.Jurisdiccion.value_counts()

Salta           1
Misiones        1
CABA            1
Chubut          1
Jujuy           1
Buenos Aires    1
Mendoza         1
Catamarca       1
Chaco           1
Córdoba         1
Río Negro       1
Santa Cruz      1
Santa Fe        1
Name: Jurisdiccion, dtype: int64

**Ejercicio 4:** ¿Qué hacen las siguientes operaciones?

In [8]:
# data_pandas['Jurisdiccion']
# data_pandas[['Jurisdiccion','Poblacion']]
# data_pandas.Jurisdiccion
'Poblacion' in data_pandas

True

**Ejercicio 5:** Filtrado por máscara. 
1. Seleccionar aquellas jurisdicciones cuya población sea mayor a un millón de habitantes.
2. Seleccionar aquellas jurisdicciones cuya población sea mayor a un millón de habitantes y su superficie menor a cien mil km2.

In [7]:
print(data_pandas.shape)
data_pandas2 = data_pandas[data_pandas.Poblacion > 1000000]
print(data_pandas2.shape)
#data_pandas[(data_pandas.Poblacion > 1000000) & (data_pandas.Superficie < 100000)]

(13, 3)
(8, 3)


In [8]:
data_pandas2

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,CABA,2890151,200
1,Buenos Aires,15625084,307521
3,Chaco,1055259,99633
5,Córdoba,3308876,165321
7,Mendoza,1738929,148827
8,Misiones,1101593,29801
11,Santa Fe,3194537,133007
12,Salta,1214441,155488


**Ejercicio 6:** Agregar una columna al dataframe que corresponda a la densidad de cada jurisdicción. Usar la información que ya está en el dataset.

In [9]:
data_pandas['Densidad'] = data_pandas['Poblacion'] / data_pandas['Superficie']
data_pandas

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad
0,CABA,2890151,200,14450.755
1,Buenos Aires,15625084,307521,50.809811
2,Catamarca,367828,102606,3.584859
3,Chaco,1055259,99633,10.591461
4,Chubut,99633,509108,0.195701
5,Córdoba,3308876,165321,20.014856
6,Jujuy,673307,53219,12.651628
7,Mendoza,1738929,148827,11.684231
8,Misiones,1101593,29801,36.964968
9,Río Negro,638645,203013,3.145833


## Iris dataset

Vamos a trabajar con el Iris Dataset, probablemente uno de los más famosos datasets. Es un dataset sencillo pero muy ilustrativo. Pueden encontrar un poco más de información en este [link](https://es.wikipedia.org/wiki/Conjunto_de_datos_flor_iris).


1. Abrir con Pandas el archivo 'DataSets/iris_dataset.csv' e imprimir sus primeros cinco elementos. Pista: pd.read...

In [10]:
data = pd.read_csv('../DataSets/iris_dataset.csv', index_col='fila')
data.head(20)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width,species
fila,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
fila1,5.1,3.5,1.4,0.2,setosa
fila2,4.9,3.0,1.4,0.2,setosa
fila3,4.7,3.2,1.3,0.2,setosa
fila4,4.6,3.1,1.5,0.2,setosa
fila5,5.0,3.6,1.4,0.2,setosa
fila6,5.4,3.9,1.7,0.4,setosa
fila7,4.6,3.4,1.4,0.3,setosa
fila8,5.0,3.4,1.5,0.2,setosa
fila9,4.4,2.9,1.4,0.2,setosa
fila10,4.9,3.1,1.5,0.1,setosa


2. ¿Cuántas columnas (features) tiene?¿Cuáles son sus nombres?¿Y cuántas filas (instancias)?

In [11]:
data.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [12]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 150 entries, fila1 to fila150
Data columns (total 5 columns):
sepal_length    150 non-null float64
sepal_width     150 non-null float64
petal_length    150 non-null float64
petal_width     150 non-null float64
species         150 non-null object
dtypes: float64(4), object(1)
memory usage: 7.0+ KB


In [13]:
data.shape

(150, 5)

In [14]:
data.count()

sepal_length    150
sepal_width     150
petal_length    150
petal_width     150
species         150
dtype: int64

3. Obtener el valor medio y desviación estándar de cada columna. ¿Hay alguna función de Pandas que nos dé aún más estadísticos?

In [15]:
data.iloc[60:65, 3:5]

Unnamed: 0_level_0,petal_width,species
fila,Unnamed: 1_level_1,Unnamed: 2_level_1
fila61,1.0,versicolor
fila62,1.5,versicolor
fila63,1.0,versicolor
fila64,1.4,versicolor
fila65,1.3,versicolor


In [16]:
data.loc['fila80', 'species']

'versicolor'

In [17]:
data['species'].unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

In [18]:
data.species.value_counts()

versicolor    50
virginica     50
setosa        50
Name: species, dtype: int64

In [19]:
data.mean()

sepal_length    5.843333
sepal_width     3.054000
petal_length    3.758667
petal_width     1.198667
dtype: float64

In [20]:
data.std()

sepal_length    0.828066
sepal_width     0.433594
petal_length    1.764420
petal_width     0.763161
dtype: float64

In [21]:
import numpy as np
data.apply(np.sum)

sepal_length                                                876.5
sepal_width                                                 458.1
petal_length                                                563.8
petal_width                                                 179.8
species         setosasetosasetosasetosasetosasetosasetosaseto...
dtype: object

In [22]:
data.sepal_length.apply(lambda x: x * x)

fila
fila1      26.01
fila2      24.01
fila3      22.09
fila4      21.16
fila5      25.00
           ...  
fila146    44.89
fila147    39.69
fila148    42.25
fila149    38.44
fila150    34.81
Name: sepal_length, Length: 150, dtype: float64

In [23]:
data.applymap(lambda x : str(x) + '_X')

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width,species
fila,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
fila1,5.1_X,3.5_X,1.4_X,0.2_X,setosa_X
fila2,4.9_X,3.0_X,1.4_X,0.2_X,setosa_X
fila3,4.7_X,3.2_X,1.3_X,0.2_X,setosa_X
fila4,4.6_X,3.1_X,1.5_X,0.2_X,setosa_X
fila5,5.0_X,3.6_X,1.4_X,0.2_X,setosa_X
...,...,...,...,...,...
fila146,6.7_X,3.0_X,5.2_X,2.3_X,virginica_X
fila147,6.3_X,2.5_X,5.0_X,1.9_X,virginica_X
fila148,6.5_X,3.0_X,5.2_X,2.0_X,virginica_X
fila149,6.2_X,3.4_X,5.4_X,2.3_X,virginica_X


In [24]:
data.applymap(lambda x : x + x)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width,species
fila,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
fila1,10.2,7.0,2.8,0.4,setosasetosa
fila2,9.8,6.0,2.8,0.4,setosasetosa
fila3,9.4,6.4,2.6,0.4,setosasetosa
fila4,9.2,6.2,3.0,0.4,setosasetosa
fila5,10.0,7.2,2.8,0.4,setosasetosa
...,...,...,...,...,...
fila146,13.4,6.0,10.4,4.6,virginicavirginica
fila147,12.6,5.0,10.0,3.8,virginicavirginica
fila148,13.0,6.0,10.4,4.0,virginicavirginica
fila149,12.4,6.8,10.8,4.6,virginicavirginica


4. ¿Creen que todas las columnas tienen información? *Tirar* la columna que crean que está demás.

In [25]:
df3 = pd.DataFrame ({'A': ['A1','A2','A3','A4'],
                    'B': ['B1',None,'B3','B4'],
                    'C': ['C1','C2','C3',None],
                    'D': [1,3,None,3]},
                   index=['f1','f2','f3','f4'])
df3

Unnamed: 0,A,B,C,D
f1,A1,B1,C1,1.0
f2,A2,,C2,3.0
f3,A3,B3,C3,
f4,A4,B4,,3.0


In [26]:
df3.mode()#axis=0, numeric_only=False

Unnamed: 0,A,B,C,D
0,A1,B1,C1,3.0
1,A2,B3,C2,
2,A3,B4,C3,
3,A4,,,


In [28]:
df3.loc['f1', 'A']


'A1'

In [29]:
df3.iloc[0, :1]

A    A1
Name: f1, dtype: object

In [30]:
df4 = pd.DataFrame ({'A': ['A1','A2','A3','A4'],
                    'B': ['B1',None,'B3','B4'],
                    'E': ['C1','C2','C3',None],
                    'F': [1,3,None,3]},
                   index=['f1','f4','f6','f7'])
df4

Unnamed: 0,A,B,E,F
f1,A1,B1,C1,1.0
f4,A2,,C2,3.0
f6,A3,B3,C3,
f7,A4,B4,,3.0


In [31]:
frames = [df3, df4]
pd.concat(frames, sort=True)

Unnamed: 0,A,B,C,D,E,F
f1,A1,B1,C1,1.0,,
f2,A2,,C2,3.0,,
f3,A3,B3,C3,,,
f4,A4,B4,,3.0,,
f1,A1,B1,,,C1,1.0
f4,A2,,,,C2,3.0
f6,A3,B3,,,C3,
f7,A4,B4,,,,3.0


In [32]:
pd.concat(frames, sort=True, axis=0, join='inner')

Unnamed: 0,A,B
f1,A1,B1
f2,A2,
f3,A3,B3
f4,A4,B4
f1,A1,B1
f4,A2,
f6,A3,B3
f7,A4,B4


In [33]:
df3.append(df4, sort=True)

Unnamed: 0,A,B,C,D,E,F
f1,A1,B1,C1,1.0,,
f2,A2,,C2,3.0,,
f3,A3,B3,C3,,,
f4,A4,B4,,3.0,,
f1,A1,B1,,,C1,1.0
f4,A2,,,,C2,3.0
f6,A3,B3,,,C3,
f7,A4,B4,,,,3.0


In [34]:
df3

Unnamed: 0,A,B,C,D
f1,A1,B1,C1,1.0
f2,A2,,C2,3.0
f3,A3,B3,C3,
f4,A4,B4,,3.0


In [35]:
df4

Unnamed: 0,A,B,E,F
f1,A1,B1,C1,1.0
f4,A2,,C2,3.0
f6,A3,B3,C3,
f7,A4,B4,,3.0


In [36]:
pd.merge(df3, df4, on='B')

Unnamed: 0,A_x,B,C,D,A_y,E,F
0,A1,B1,C1,1.0,A1,C1,1.0
1,A2,,C2,3.0,A2,C2,3.0
2,A3,B3,C3,,A3,C3,
3,A4,B4,,3.0,A4,,3.0


In [37]:
df3.drop(columns = 'A', inplace = True)
df3

Unnamed: 0,B,C,D
f1,B1,C1,1.0
f2,,C2,3.0
f3,B3,C3,
f4,B4,,3.0


In [38]:
df3.isna()

Unnamed: 0,B,C,D
f1,False,False,False
f2,True,False,False
f3,False,False,True
f4,False,True,False


In [39]:
df3.isnull()

Unnamed: 0,B,C,D
f1,False,False,False
f2,True,False,False
f3,False,False,True
f4,False,True,False


In [40]:
df3.dropna(subset=['B'], inplace=True)

In [41]:
df3.dropna()

Unnamed: 0,B,C,D
f1,B1,C1,1.0


In [42]:
df3.D.fillna(df3.D.mean())

f1    1.0
f3    2.0
f4    3.0
Name: D, dtype: float64

In [43]:
df3.D.fillna(df3.D.mean(), inplace=True)

In [44]:
df3

Unnamed: 0,B,C,D
f1,B1,C1,1.0
f3,B3,C3,2.0
f4,B4,,3.0


In [7]:
import numpy as np
import pandas as pd
from datetime import datetime

In [8]:
def applywise_duration(df):
    start_time = datetime.now()
    df['C'] = df.apply(lambda row: row['A'] + row['B'], axis=1)
    end_time = datetime.now()
    duration = end_time - start_time
    return(duration)

def columnwise_duration(df):
    start_time = datetime.now()
    df['C'] = df['A'] + df['B']
    end_time = datetime.now()
    duration = end_time - start_time
    return(duration)

In [9]:
df_apply = pd.DataFrame(
        np.random.randint(0,10000,size=(1000000, 2)),
        columns=list('AB')
)
df_vector = df_apply.copy()

In [11]:
applywise_duration = applywise_duration(df_apply)
columnwise_duration = columnwise_duration(df_vector)

print('Duracion de apply: ', applywise_duration)
print('Duracion de columnwise addition: ', columnwise_duration)
print('Ratio: ', columnwise_duration / applywise_duration)
print('Eso significa que, en este caso, columnwise addition es %s veces más rápida que la adición mediante apply!'
        % str(applywise_duration / columnwise_duration)
      )

Duracion de apply:  0:00:56.128216
Duracion de columnwise addition:  0:00:00.009989
Ratio:  0.00017796753062666377
Eso significa que, en este caso, columnwise addition es 5619.002502753028 veces más rápida que la adición mediante apply!
