# Algoritmos auxiliares

En este script se plantea mostrar cómo funcionan algortimos encontrados en internet. Esto, debido a que hay veces en las que son más eficientes que los algoritmos propios, por lo que solo pondré los que son más eficientes que los propios y que haya encontrado.

In [1]:
import numpy as np
import pandas as pd

### Valores únicos por fila

Obtengamos los valores únicos por fila a través de distintos métodos

In [26]:
lst = [[12, 12, 25], [34, 3, 30],
       [26, 26, 26], [np.nan, 1, 22], 
       [np.nan, np.nan, np.nan]]

In [27]:
df = pd.DataFrame(lst, columns =['FName', 'LName', 'Age'], dtype = float)
df

Unnamed: 0,FName,LName,Age
0,12.0,12.0,25.0
1,34.0,3.0,30.0
2,26.0,26.0,26.0
3,,1.0,22.0
4,,,


In [28]:
list(map(set,df.values))

[{12.0, 25.0}, {3.0, 30.0, 34.0}, {26.0}, {nan, 1.0, 22.0}, {nan, nan, nan}]

In [29]:
df.stack().groupby(level=0).apply(lambda x: x.unique().tolist())

0         [12.0, 25.0]
1    [34.0, 3.0, 30.0]
2               [26.0]
3          [1.0, 22.0]
dtype: object

El anterior es el mejor método

In [30]:
df.T.agg([pd.unique])

Unnamed: 0,0,1,2,3,4
unique,"[12.0, 25.0]","[34.0, 3.0, 30.0]",[26.0],"[nan, 1.0, 22.0]",[nan]


### Contar valores únicos por fila

In [31]:
df = pd.DataFrame(lst, columns =['FName', 'LName', 'Age'], dtype = float)

df['num_uniq_1'] = [len(set(v[pd.notna(v)].tolist())) for v in df.values]
df

Unnamed: 0,FName,LName,Age,num_uniq_1
0,12.0,12.0,25.0,2
1,34.0,3.0,30.0,3
2,26.0,26.0,26.0,1
3,,1.0,22.0,2
4,,,,0


In [32]:
df = pd.DataFrame(lst, columns =['FName', 'LName', 'Age'], dtype = float)

# df.join(df.stack().groupby(level=0).nunique().to_frame('num_uniq'))
df['num_uniq_2'] = df.stack().groupby(level=0).nunique()
df

Unnamed: 0,FName,LName,Age,num_uniq_2
0,12.0,12.0,25.0,2.0
1,34.0,3.0,30.0,3.0
2,26.0,26.0,26.0,1.0
3,,1.0,22.0,2.0
4,,,,


In [33]:
df = pd.DataFrame(lst, columns =['FName', 'LName', 'Age'], dtype = float)

df['num_uniq_3'] = df.apply(pd.Series.nunique, axis=1)
df

Unnamed: 0,FName,LName,Age,num_uniq_3
0,12.0,12.0,25.0,2
1,34.0,3.0,30.0,3
2,26.0,26.0,26.0,1
3,,1.0,22.0,2
4,,,,0


### Buscar un valor entre dos dataframes

Nos interesa hallar la fila en la que dos dataframes tienen un mismo valor con respecto a una columna

In [2]:
df1 = pd.DataFrame({'Time': ['8a', '10p'], 'V1': [1, 2], 'V2': [3, 4]})
df2 = pd.DataFrame({'fn': ['8.txt', '10.txt'], 'V1': [3, 2], 'V2': [3, 4]})

Primera solución

In [3]:
df1.merge(df2, on=['V1', 'V2'], how='outer').dropna()

Unnamed: 0,Time,V1,V2,fn
1,10p,2,4,10.txt


In [8]:
df2.merge(df1,how="inner",on=["V1","V2"])[["fn","Time"]]

Unnamed: 0,fn,Time
0,10.txt,10p


In [9]:
pd.concat([df1, df2.reindex(df1.index)], axis=1)

Unnamed: 0,Time,V1,V2,fn,V1.1,V2.1
0,8a,1,3,8.txt,3,3
1,10p,2,4,10.txt,2,4


Segunda solución y óptima para los propósitos

In [4]:
for row in range(len(df1)):
    if (df1.iloc[row,1:] == df2.iloc[row,1:]).all() == True: 
        print(df1.iloc[row], df2.iloc[row])

Time    10p
V1        2
V2        4
Name: 1, dtype: object fn    10.txt
V1         2
V2         4
Name: 1, dtype: object


In [6]:
client = boto3.client('s3')

obj = client.get_object(Bucket='', Key='')
data = obj['Body'].read()
df1 = pd.read_excel(io.BytesIO(data), sheet_name='0')
df2 = pd.read_excel(io.BytesIO(data), sheet_name='1')

head = df2.columns[0]
print(head)

data = df1.iloc[[8],[0]].values[0]
print(data)

print(df2)
df2.columns = df2.iloc[0]
df2 = df2.drop(labels=0, axis=0)
df2['Head'] = head
df2['ID'] = pd.Series([data,data])

print(df2)
df2.to_csv('test.csv',index=False)

NameError: name 'boto3' is not defined