# Pandas  
Permite operar ocn matrices, pero con niveles de abstraccion bastante utiles

In [1]:
import pandas as pd

In [2]:
m = [2,4,6,3,1]

Pandas trabaja con series. Las series son arrays que tienen indices o alias, y parametros como el nombre

In [3]:
s = pd.Series(m)
s

0    2
1    4
2    6
3    3
4    1
dtype: int64

Pero el indice podemos definirlo. Para definirlo igual al que viene por defecto hacemos:

In [4]:
s = pd.Series(m, index=[x for x in range(len(m))])
s

0    2
1    4
2    6
3    3
4    1
dtype: int64

O usamos un indice desfasado:

In [5]:
s = pd.Series(m, index=[x+3 for x in range(len(m))])
s

3    2
4    4
5    6
6    3
7    1
dtype: int64

In [6]:
s.rename("numeros")

3    2
4    4
5    6
6    3
7    1
Name: numeros, dtype: int64

In [7]:
d = {'a':3, 'b':5, 'c':9}
s = pd.Series(d)
s

a    3
b    5
c    9
dtype: int64

Pueden haber indices repetidos:

In [8]:
s = pd.Series(m, index=[(x+3)//2 for x in range(len(m))])
s

1    2
2    4
2    6
3    3
3    1
dtype: int64

Podemos filtrar por valor del indice:

loc busca por indice, y iloc por posicion

In [9]:
s.loc[2]

2    4
2    6
dtype: int64

In [10]:
s.loc[[2,3]]

2    4
2    6
3    3
3    1
dtype: int64

tambien podemos indexar por posicion:

In [11]:
s.iloc[2]

6

In [12]:
s.iloc[0:2]

1    2
2    4
dtype: int64

In [13]:
s.iloc[0:-1]

1    2
2    4
2    6
3    3
dtype: int64

In [14]:
type(s)

pandas.core.series.Series

## Dataframe  
Un conjunto de series conforma un dataframe. Es como una matriz, pero ahora cada fila tiene un indice asociado, y cada columna tiene un alias que puede ser modificado. Una serie puede ser bidimensional y formar una matriz, pero el df la particularidad que tiene es que para operar, hay que aclarar el nombre de la columna que se quiere, no se trada como a una amtriz


In [15]:
m_base = [[2,3,4],
          [3,4,5],
          [1,1,2]]

In [16]:
pd.DataFrame(m_base)

Unnamed: 0,0,1,2
0,2,3,4
1,3,4,5
2,1,1,2


In [17]:
pd.DataFrame(m_base, columns = ["num_1", "num_2", "num_3"])

Unnamed: 0,num_1,num_2,num_3
0,2,3,4
1,3,4,5
2,1,1,2


In [18]:
pd.DataFrame(m_base, columns = [f"num_{x}" for x in range(3)])

Unnamed: 0,num_0,num_1,num_2
0,2,3,4
1,3,4,5
2,1,1,2


In [19]:
df = pd.DataFrame(m_base, columns = [f"num_{x}" for x in range(3)], index = ["idx_1", "idx_2", "idx_3"])
df

Unnamed: 0,num_0,num_1,num_2
idx_1,2,3,4
idx_2,3,4,5
idx_3,1,1,2


In [20]:
df.loc["idx_1"] # Devuelve una serie con el indice que le doy

num_0    2
num_1    3
num_2    4
Name: idx_1, dtype: int64

In [21]:
df.loc[["idx_1"]] # Devuelve un df

Unnamed: 0,num_0,num_1,num_2
idx_1,2,3,4


In [22]:
df.loc[["idx_1", "idx_2"]] # Devuelve un df

Unnamed: 0,num_0,num_1,num_2
idx_1,2,3,4
idx_2,3,4,5


In [23]:
df.loc[:] # Devuelve un df

Unnamed: 0,num_0,num_1,num_2
idx_1,2,3,4
idx_2,3,4,5
idx_3,1,1,2


In [24]:
df.loc[["idx_1", "idx_2"], ["num_0", "num_1"]] # Devuelve un df

Unnamed: 0,num_0,num_1
idx_1,2,3
idx_2,3,4


In [25]:
df.iloc[1]

num_0    3
num_1    4
num_2    5
Name: idx_2, dtype: int64

In [26]:
df.iloc[1:3]

Unnamed: 0,num_0,num_1,num_2
idx_2,3,4,5
idx_3,1,1,2


In [27]:
import numpy as np

In [28]:
m_np = np.random.randint(0,10, (10,20))

In [29]:
m_np.shape # Cantidad de filas x columnas

(10, 20)

In [30]:
m_np

array([[8, 4, 6, 3, 8, 0, 4, 8, 0, 2, 5, 8, 2, 8, 5, 7, 8, 3, 3, 9],
       [9, 7, 1, 8, 8, 9, 5, 4, 4, 9, 6, 4, 8, 2, 3, 7, 3, 9, 5, 5],
       [2, 7, 8, 7, 3, 7, 9, 5, 3, 0, 4, 1, 2, 4, 9, 3, 8, 8, 6, 0],
       [5, 6, 1, 4, 6, 0, 6, 2, 2, 1, 7, 1, 2, 3, 8, 5, 7, 4, 9, 6],
       [1, 1, 6, 9, 8, 5, 4, 9, 3, 5, 2, 2, 9, 4, 1, 1, 0, 2, 2, 1],
       [6, 0, 4, 7, 6, 7, 6, 3, 9, 2, 0, 5, 1, 7, 3, 9, 1, 3, 2, 5],
       [4, 0, 8, 7, 2, 3, 6, 9, 8, 6, 5, 3, 9, 3, 2, 6, 7, 3, 2, 8],
       [7, 8, 8, 5, 0, 4, 9, 1, 1, 8, 5, 0, 6, 7, 5, 2, 3, 7, 9, 5],
       [0, 4, 0, 5, 6, 8, 1, 4, 5, 6, 4, 0, 1, 1, 9, 6, 4, 1, 1, 8],
       [9, 7, 2, 6, 6, 3, 9, 7, 8, 4, 6, 9, 3, 4, 6, 2, 6, 1, 6, 3]])

In [31]:
pd.DataFrame(m_np, columns=[f"columns_{x}" for x in range(m_np.shape[1])], index=[f"row_{x}" for x in range(m_np.shape[0])])
# shape devuelve una tupla con los dos numeros filas y columnas

Unnamed: 0,columns_0,columns_1,columns_2,columns_3,columns_4,columns_5,columns_6,columns_7,columns_8,columns_9,columns_10,columns_11,columns_12,columns_13,columns_14,columns_15,columns_16,columns_17,columns_18,columns_19
row_0,8,4,6,3,8,0,4,8,0,2,5,8,2,8,5,7,8,3,3,9
row_1,9,7,1,8,8,9,5,4,4,9,6,4,8,2,3,7,3,9,5,5
row_2,2,7,8,7,3,7,9,5,3,0,4,1,2,4,9,3,8,8,6,0
row_3,5,6,1,4,6,0,6,2,2,1,7,1,2,3,8,5,7,4,9,6
row_4,1,1,6,9,8,5,4,9,3,5,2,2,9,4,1,1,0,2,2,1
row_5,6,0,4,7,6,7,6,3,9,2,0,5,1,7,3,9,1,3,2,5
row_6,4,0,8,7,2,3,6,9,8,6,5,3,9,3,2,6,7,3,2,8
row_7,7,8,8,5,0,4,9,1,1,8,5,0,6,7,5,2,3,7,9,5
row_8,0,4,0,5,6,8,1,4,5,6,4,0,1,1,9,6,4,1,1,8
row_9,9,7,2,6,6,3,9,7,8,4,6,9,3,4,6,2,6,1,6,3


In [32]:
from sklearn.datasets import load_iris

sklearn tiene datasets. Por ejemplo load_iris() que nos da un diccionario con un dataset sobre varias flores

In [33]:
l_raw = load_iris()
l_raw

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [34]:
l_raw.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [35]:
l_raw['feature_names']

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [36]:
type(l_raw['data'])

numpy.ndarray

In [37]:
pd.DataFrame(l_raw['data'])

Unnamed: 0,0,1,2,3
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [38]:
# imprimir primeras 10
pd.DataFrame(l_raw['data']).head(10)

Unnamed: 0,0,1,2,3
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4
6,4.6,3.4,1.4,0.3
7,5.0,3.4,1.5,0.2
8,4.4,2.9,1.4,0.2
9,4.9,3.1,1.5,0.1


In [39]:
# imprimir ultimas 10
pd.DataFrame(l_raw['data']).tail(10)

Unnamed: 0,0,1,2,3
140,6.7,3.1,5.6,2.4
141,6.9,3.1,5.1,2.3
142,5.8,2.7,5.1,1.9
143,6.8,3.2,5.9,2.3
144,6.7,3.3,5.7,2.5
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


In [40]:
l_raw['data'].shape

(150, 4)

In [41]:
data = pd.DataFrame(l_raw['data'], columns=l_raw['feature_names'])
data.sample(5)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
41,4.5,2.3,1.3,0.3
84,5.4,3.0,4.5,1.5
93,5.0,2.3,3.3,1.0
44,5.1,3.8,1.9,0.4
101,5.8,2.7,5.1,1.9


Como es un dataset, tiene targets que creo que son los nombres de los objetos de los cuales tenemos datos

In [42]:
l_raw['target'].shape

(150,)

In [43]:
targets = pd.DataFrame(l_raw['target'], columns=['target'])
targets.sample(10)

Unnamed: 0,target
140,2
24,0
90,1
55,1
74,1
69,1
100,2
20,0
89,1
11,0


Ahora hacemos que el dataframe tenga una columna con los targets, es decir la etiqueta de cada conjunto de datos. Entonces, ahora es un dataframe que sirve para aprendizaje automatico supervisado.

In [44]:
pd.concat([data, targets], axis=1)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [45]:
l_raw['target_names']

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [46]:
d_targets = {idx:x for idx, x in enumerate(l_raw['target_names'])}
d_targets

{0: 'setosa', 1: 'versicolor', 2: 'virginica'}

In [47]:
d_targets[0] = 'cualquier cosa'

Ahora, al dataset de data, le agregamos la columna target. Ahora nos dice la info, y que flor es

In [48]:
pd.concat([data, targets], axis=1)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [49]:
targets['target'].map(d_targets)

0      cualquier cosa
1      cualquier cosa
2      cualquier cosa
3      cualquier cosa
4      cualquier cosa
            ...      
145         virginica
146         virginica
147         virginica
148         virginica
149         virginica
Name: target, Length: 150, dtype: object

In [50]:
df_complete = pd.concat([data, targets], axis=1)

In [51]:
#concatenamos al df, dos columnas correspondientes a target y sus nombres.
# lo hicimos a travez de un diciconario. DIDA: revisar map.
pd.concat([df_complete, df_complete['target'].map(d_targets)], axis=1)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,target.1
0,5.1,3.5,1.4,0.2,0,cualquier cosa
1,4.9,3.0,1.4,0.2,0,cualquier cosa
2,4.7,3.2,1.3,0.2,0,cualquier cosa
3,4.6,3.1,1.5,0.2,0,cualquier cosa
4,5.0,3.6,1.4,0.2,0,cualquier cosa
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2,virginica
146,6.3,2.5,5.0,1.9,2,virginica
147,6.5,3.0,5.2,2.0,2,virginica
148,6.2,3.4,5.4,2.3,2,virginica


In [52]:
# pd.concat([data, targets], axis=1)['targets'].map(d_targets)
pd.concat([data, targets], axis=1)['target'].map(d_targets)

0      cualquier cosa
1      cualquier cosa
2      cualquier cosa
3      cualquier cosa
4      cualquier cosa
            ...      
145         virginica
146         virginica
147         virginica
148         virginica
149         virginica
Name: target, Length: 150, dtype: object

In [53]:
# DUDA: me pierdo un poco. si concatena targets, que tiene ambas columnas target, por q solo agrega la te 0, 1, 2 ??
all_df = pd.concat([data, targets], axis=1)
all_df


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [54]:
all_df = pd.concat([all_df, pd.concat([data, targets], axis=1)['target'].map(d_targets)], axis = 1)
all_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,target.1
0,5.1,3.5,1.4,0.2,0,cualquier cosa
1,4.9,3.0,1.4,0.2,0,cualquier cosa
2,4.7,3.2,1.3,0.2,0,cualquier cosa
3,4.6,3.1,1.5,0.2,0,cualquier cosa
4,5.0,3.6,1.4,0.2,0,cualquier cosa
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2,virginica
146,6.3,2.5,5.0,1.9,2,virginica
147,6.5,3.0,5.2,2.0,2,virginica
148,6.2,3.4,5.4,2.3,2,virginica


In [55]:
# to_list
# to_numpy

all_df.values.tolist()[:10]

[[5.1, 3.5, 1.4, 0.2, 0, 'cualquier cosa'],
 [4.9, 3.0, 1.4, 0.2, 0, 'cualquier cosa'],
 [4.7, 3.2, 1.3, 0.2, 0, 'cualquier cosa'],
 [4.6, 3.1, 1.5, 0.2, 0, 'cualquier cosa'],
 [5.0, 3.6, 1.4, 0.2, 0, 'cualquier cosa'],
 [5.4, 3.9, 1.7, 0.4, 0, 'cualquier cosa'],
 [4.6, 3.4, 1.4, 0.3, 0, 'cualquier cosa'],
 [5.0, 3.4, 1.5, 0.2, 0, 'cualquier cosa'],
 [4.4, 2.9, 1.4, 0.2, 0, 'cualquier cosa'],
 [4.9, 3.1, 1.5, 0.1, 0, 'cualquier cosa']]

In [56]:
# to_list
# to_numpy
# [] vs [[]]
# to_csv
# describe
# head
# info
# apply
# apply con funciones lambda
# nueva columna
# concat
# slicing
# groupby

Podemos armar series o df a partir de los elementos de un df.  
Si ponemos un solo corchete, arma una serie, y si ponemos doble corchete, arma un df. SALVO que pongamos un solo corchete, pero con un nombre de columna que este repetido, como a continuacion:

In [57]:
all_df['target']

Unnamed: 0,target,target.1
0,0,cualquier cosa
1,0,cualquier cosa
2,0,cualquier cosa
3,0,cualquier cosa
4,0,cualquier cosa
...,...,...
145,2,virginica
146,2,virginica
147,2,virginica
148,2,virginica


In [58]:
all_df[['petal width (cm)']]

Unnamed: 0,petal width (cm)
0,0.2
1,0.2
2,0.2
3,0.2
4,0.2
...,...
145,2.3
146,1.9
147,2.0
148,2.3


In [59]:
# armo serie:
all_df['petal width (cm)']

0      0.2
1      0.2
2      0.2
3      0.2
4      0.2
      ... 
145    2.3
146    1.9
147    2.0
148    2.3
149    1.8
Name: petal width (cm), Length: 150, dtype: float64

In [60]:
# armo df:
all_df[['petal width (cm)']]

Unnamed: 0,petal width (cm)
0,0.2
1,0.2
2,0.2
3,0.2
4,0.2
...,...
145,2.3
146,1.9
147,2.0
148,2.3


## Operaciones basicas con df

In [61]:
all_df.head(2) # Listar los primeros n

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,target.1
0,5.1,3.5,1.4,0.2,0,cualquier cosa
1,4.9,3.0,1.4,0.2,0,cualquier cosa


In [62]:
all_df.tail(2) # Listar los últimos n

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,target.1
148,6.2,3.4,5.4,2.3,2,virginica
149,5.9,3.0,5.1,1.8,2,virginica


In [63]:
all_df.sample(2) # ontener una muestra aleatoria de tamaño n

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,target.1
66,5.6,3.0,4.5,1.5,1,versicolor
37,4.9,3.6,1.4,0.1,0,cualquier cosa


In [64]:
# info suele ser lo primero que hacemos al obtener un dataframe, para conocerlo
all_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
 4   target             150 non-null    int32  
 5   target             150 non-null    object 
dtypes: float64(4), int32(1), object(1)
memory usage: 6.6+ KB


In [65]:
all_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
count,150.0,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333,1.0
std,0.828066,0.435866,1.765298,0.762238,0.819232
min,4.3,2.0,1.0,0.1,0.0
25%,5.1,2.8,1.6,0.3,0.0
50%,5.8,3.0,4.35,1.3,1.0
75%,6.4,3.3,5.1,1.8,2.0
max,7.9,4.4,6.9,2.5,2.0


In [66]:
all_df.mean()

  all_df.mean()


sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
target               1.000000
dtype: float64

In [67]:
all_df.std()

  all_df.std()


sepal length (cm)    0.828066
sepal width (cm)     0.435866
petal length (cm)    1.765298
petal width (cm)     0.762238
target               0.819232
dtype: float64

Ahora vamos a empezar a operar sobre filas o columnas especificas a partir del metodo apply():

In [68]:
def suma_1(x):
    return x+1

In [69]:
suma_1(3)

4

In [70]:
suma_1(3.5)

4.5

In [71]:
all_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)', 'target', 'target'],
      dtype='object')

In [72]:
all_df['sepal length (cm)'].head(3)

0    5.1
1    4.9
2    4.7
Name: sepal length (cm), dtype: float64

In [73]:
# no se aplico al df, si no a esta instancia de su columna
# DUDA: como lo aplico a esa columna, pero en el df? sin tener que extraer la columna, modificarla, e intercambiarla??
all_df['sepal length (cm)'].apply(suma_1)

0      6.1
1      5.9
2      5.7
3      5.6
4      6.0
      ... 
145    7.7
146    7.3
147    7.5
148    7.2
149    6.9
Name: sepal length (cm), Length: 150, dtype: float64

In [74]:
all_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,target.1
0,5.1,3.5,1.4,0.2,0,cualquier cosa
1,4.9,3.0,1.4,0.2,0,cualquier cosa
2,4.7,3.2,1.3,0.2,0,cualquier cosa
3,4.6,3.1,1.5,0.2,0,cualquier cosa
4,5.0,3.6,1.4,0.2,0,cualquier cosa
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2,virginica
146,6.3,2.5,5.0,1.9,2,virginica
147,6.5,3.0,5.2,2.0,2,virginica
148,6.2,3.4,5.4,2.3,2,virginica


In [75]:
# DUDA: no era que axis=0 lo aplica solo a la fila 0??
all_df[['sepal length (cm)','petal length (cm)']].apply(suma_1, axis=0)

Unnamed: 0,sepal length (cm),petal length (cm)
0,6.1,2.4
1,5.9,2.4
2,5.7,2.3
3,5.6,2.5
4,6.0,2.4
...,...,...
145,7.7,6.2
146,7.3,6.0
147,7.5,6.2
148,7.2,6.4


In [76]:
def fn(x):
    return x+1

misma funcion suma, pero inline con lambda

In [77]:
all_df[['sepal length (cm)','petal length (cm)']].apply(lambda x: x+1)

Unnamed: 0,sepal length (cm),petal length (cm)
0,6.1,2.4
1,5.9,2.4
2,5.7,2.3
3,5.6,2.5
4,6.0,2.4
...,...,...
145,7.7,6.2
146,7.3,6.0
147,7.5,6.2
148,7.2,6.4


## copiando dataframes

CONCEPTO DE COPIA DE DATAFRAMES: pandas esta hecho par apoder trabajar con los df, pero no poder romper el original. Por eso es que al aplicar la suma, se aplica sobre copias, pero el df sigue siendo el mismo.  
Si nosotros declaramos otra variable igualada al mismo df, como haremos a continuacoin, se trabaja con punteros, no es que se genera otro df igual. Por eso, sobre esa nueva variable tampoco nos deja pandas modificar el original. A continiacion vemos ese caso, y como tira error:

In [78]:
all_df_ = all_df[:50]

In [79]:
all_df_['sepal length (cm)'] = all_df_['sepal length (cm)'] + 1

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  all_df_['sepal length (cm)'] = all_df_['sepal length (cm)'] + 1


Para copiar el dataframe literalmente generando otro bloque de memoria diferente al original, hay que explicitamente usar el metodo copy

In [80]:
all_df_ = all_df[:50].copy()
all_df_

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,target.1
0,5.1,3.5,1.4,0.2,0,cualquier cosa
1,4.9,3.0,1.4,0.2,0,cualquier cosa
2,4.7,3.2,1.3,0.2,0,cualquier cosa
3,4.6,3.1,1.5,0.2,0,cualquier cosa
4,5.0,3.6,1.4,0.2,0,cualquier cosa
5,5.4,3.9,1.7,0.4,0,cualquier cosa
6,4.6,3.4,1.4,0.3,0,cualquier cosa
7,5.0,3.4,1.5,0.2,0,cualquier cosa
8,4.4,2.9,1.4,0.2,0,cualquier cosa
9,4.9,3.1,1.5,0.1,0,cualquier cosa


In [81]:
# DUDA: por que podemos hacer esto? esta bien, es una copia del original, pero es un nuevo df... lo que creo es que al generar un df con copy(), tiene algun flag indicando que es copia de otro, y esonos hbailita a manipularlo...
all_df_['sepal length (cm)'] = all_df_['sepal length (cm)'] + 1

In [82]:
import gc

In [83]:
gc.collect()

0

In [84]:
all_df_.info(memory_usage=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  50 non-null     float64
 1   sepal width (cm)   50 non-null     float64
 2   petal length (cm)  50 non-null     float64
 3   petal width (cm)   50 non-null     float64
 4   target             50 non-null     int32  
 5   target             50 non-null     object 
dtypes: float64(4), int32(1), object(1)
memory usage: 2.3+ KB


In [85]:
all_df_.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  50 non-null     float64
 1   sepal width (cm)   50 non-null     float64
 2   petal length (cm)  50 non-null     float64
 3   petal width (cm)   50 non-null     float64
 4   target             50 non-null     int32  
 5   target             50 non-null     object 
dtypes: float64(4), int32(1), object(1)
memory usage: 5.4 KB


In [86]:
# Nos quedamos con el subconjunto cuyo largo es mayor a la media
all_df_ = all_df[all_df['sepal length (cm)'] > all_df['sepal length (cm)'].mean()]

In [87]:
all_df_

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,target.1
50,7.0,3.2,4.7,1.4,1,versicolor
51,6.4,3.2,4.5,1.5,1,versicolor
52,6.9,3.1,4.9,1.5,1,versicolor
54,6.5,2.8,4.6,1.5,1,versicolor
56,6.3,3.3,4.7,1.6,1,versicolor
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2,virginica
146,6.3,2.5,5.0,1.9,2,virginica
147,6.5,3.0,5.2,2.0,2,virginica
148,6.2,3.4,5.4,2.3,2,virginica


In [88]:
all_df_.columns = ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)', 'target', 'target_str']

In [89]:
all_df_

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,target_str
50,7.0,3.2,4.7,1.4,1,versicolor
51,6.4,3.2,4.5,1.5,1,versicolor
52,6.9,3.1,4.9,1.5,1,versicolor
54,6.5,2.8,4.6,1.5,1,versicolor
56,6.3,3.3,4.7,1.6,1,versicolor
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2,virginica
146,6.3,2.5,5.0,1.9,2,virginica
147,6.5,3.0,5.2,2.0,2,virginica
148,6.2,3.4,5.4,2.3,2,virginica


In [90]:
all_df_.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)', 'target', 'target_str'],
      dtype='object')

In [91]:
# ordenamos el df por target, nos quedamos solo con la columna sepal l., y le pedimos la std de cada grupo
all_df_.groupby('target')['sepal length (cm)'].std()

target
1    0.325056
2    0.539967
Name: sepal length (cm), dtype: float64

In [92]:
x = all_df_.sample(10)

In [93]:
y = all_df_.sample(10)

In [94]:
pd.concat([x, y], axis = 1)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,target_str,sepal length (cm).1,sepal width (cm).1,petal length (cm).1,petal width (cm).1,target.1,target_str.1
100,6.3,3.3,6.0,2.5,2.0,virginica,,,,,,
72,6.3,2.5,4.9,1.5,1.0,versicolor,,,,,,
61,5.9,3.0,4.2,1.5,1.0,versicolor,,,,,,
68,6.2,2.2,4.5,1.5,1.0,versicolor,6.2,2.2,4.5,1.5,1.0,versicolor
145,6.7,3.0,5.2,2.3,2.0,virginica,,,,,,
136,6.3,3.4,5.6,2.4,2.0,virginica,,,,,,
112,6.8,3.0,5.5,2.1,2.0,virginica,,,,,,
77,6.7,3.0,5.0,1.7,1.0,versicolor,,,,,,
58,6.6,2.9,4.6,1.3,1.0,versicolor,6.6,2.9,4.6,1.3,1.0,versicolor
62,6.0,2.2,4.0,1.0,1.0,versicolor,,,,,,


In [95]:
df_1 = all_df_[['target', 	'sepal length (cm)',	'sepal width (cm)',	'petal length (cm)',	'petal width (cm)']]
df_2 = all_df_[['target', 'target_str']]

In [96]:
all_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)', 'target', 'target'],
      dtype='object')

In [97]:
all_df.columns = ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)', 'target', 'target_str']

# Join  
DUDA: Unimos dataframes, anileandolos a partir de algun dato comun entre cada linea de cada df.  
Por ejemplo, podria generar el nuevo df uniendo horizontalmente los df_1 y df_2, a partir del indice. En este caso, es la unica columna que comparten...

In [98]:
all_df.join(pd.DataFrame.from_dict(d_targets, orient = 'index'), on = 'target')

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,target_str,0
0,5.1,3.5,1.4,0.2,0,cualquier cosa,cualquier cosa
1,4.9,3.0,1.4,0.2,0,cualquier cosa,cualquier cosa
2,4.7,3.2,1.3,0.2,0,cualquier cosa,cualquier cosa
3,4.6,3.1,1.5,0.2,0,cualquier cosa,cualquier cosa
4,5.0,3.6,1.4,0.2,0,cualquier cosa,cualquier cosa
...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2,virginica,virginica
146,6.3,2.5,5.0,1.9,2,virginica,virginica
147,6.5,3.0,5.2,2.0,2,virginica,virginica
148,6.2,3.4,5.4,2.3,2,virginica,virginica
