# DATA WRANGLING
## Valores duplicados

In [2]:
import numpy as np
import pandas as pd

In [4]:
DF= pd.DataFrame({
    'col 1':[1,1,2,2,3,3,3],
    'col 2': ['a','a','b','b','c','c','c'],
    'col3 ': ['A','A','B','B','C','C','C']
})

DF

Unnamed: 0,col 1,col 2,col3
0,1,a,A
1,1,a,A
2,2,b,B
3,2,b,B
4,3,c,C
5,3,c,C
6,3,c,C


In [5]:
DF.duplicated()

0    False
1     True
2    False
3     True
4    False
5     True
6     True
dtype: bool

In [6]:
DF.drop_duplicates()  # inplace=True  para guardar el cambio en dataframe original

Unnamed: 0,col 1,col 2,col3
0,1,a,A
2,2,b,B
4,3,c,C


## Crear serie multiindex

In [7]:
arrays = [np.array(["a", "a", "a", "b", "b", "b", "c", "c","c"]),
          np.array([1,2,3, 1,2,3, 1,2,3]),]

s = pd.Series(np.random.randn(9), index=arrays)
s

a  1    0.098912
   2    0.029500
   3    0.856997
b  1    0.644169
   2   -0.317259
   3   -0.200923
c  1    0.035487
   2    0.270867
   3   -0.532484
dtype: float64

In [8]:
s.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 2),
            ('b', 3),
            ('c', 1),
            ('c', 2),
            ('c', 3)],
           )

In [9]:
# Primero nivel
s['a']

1    0.098912
2    0.029500
3    0.856997
dtype: float64

In [10]:
# Segundo nivel
s.loc[:,2]

a    0.029500
b   -0.317259
c    0.270867
dtype: float64

In [11]:
s.unstack()

Unnamed: 0,1,2,3
a,0.098912,0.0295,0.856997
b,0.644169,-0.317259,-0.200923
c,0.035487,0.270867,-0.532484


In [12]:
# s.sum(level=1) dejo de usarse en esta version, se reemplaza por
s.groupby(level=1).sum()

1    0.778568
2   -0.016893
3    0.123590
dtype: float64

In [13]:
s.groupby(level=0).sum()

a    0.985409
b    0.125987
c   -0.226129
dtype: float64

In [14]:
# s.mean(level=0)
s.groupby(level=1).median()

1    0.098912
2    0.029500
3   -0.200923
dtype: float64

## Print

In [15]:
print('Pero', 'no', 'incluyendo', sep='**')

Pero**no**incluyendo


In [16]:
print('Pero', 'no', 'incluyendo', sep='')

Peronoincluyendo


In [17]:
print("hola", "buen", "día", sep="\n")

hola
buen
día


In [18]:
print('hola', 'buen', 'día', sep='\t')

hola	buen	día


In [19]:
print('hola', 'buen', 'día', end='!')

hola buen día!

## Group by
Identifica una columna seleccionada para utilizarla para agrupar resultados. Divide los datos en grupos por los valores de la columna especificada, y devuelve una fila de resultados para cada grupo.


In [20]:
df = pd.DataFrame({
    'data1' : np.random.randn(5), 
    'data2' : np.random.randn(5),
    'key1' : ['a', 'a', 'b', 'b', 'a'],
    'key2' : ['one', 'two', 'one', 'two', 'one']
})

df

Unnamed: 0,data1,data2,key1,key2
0,-0.706703,0.658809,a,one
1,0.339061,0.742835,a,two
2,1.088565,-1.148663,b,one
3,0.226936,0.460076,b,two
4,-0.930248,-1.750078,a,one


In [21]:
grouped = df['data1'].groupby(df['key1'])
type(grouped)

pandas.core.groupby.generic.SeriesGroupBy

In [22]:
grouped.median()

key1
a   -0.706703
b    0.657750
Name: data1, dtype: float64

In [23]:
df['data1'].groupby(df['key1']).sum()

key1
a   -1.297890
b    1.315501
Name: data1, dtype: float64

In [24]:
df['data1'].groupby([df['key1'],df['key2']]).sum()

key1  key2
a     one    -1.636951
      two     0.339061
b     one     1.088565
      two     0.226936
Name: data1, dtype: float64

## Pivot
En este caso, vemos como utiliza los valores únicos de la columna B y los transforma en múltiples columnas.

In [25]:
df = pd.DataFrame(data={
    'A' : ['John', 'Boby', 'Mina'],
    'B' : ['Masters', 'Graduate', 'Graduate'],
    'C' : [27,23,21]
})

df

Unnamed: 0,A,B,C
0,John,Masters,27
1,Boby,Graduate,23
2,Mina,Graduate,21


In [30]:
df.pivot(index='A', columns='B', values=['C'])

Unnamed: 0_level_0,C,C
B,Graduate,Masters
A,Unnamed: 1_level_2,Unnamed: 2_level_2
Boby,23.0,
John,,27.0
Mina,21.0,


In [26]:
df.pivot(index='A', columns='B')

Unnamed: 0_level_0,C,C
B,Graduate,Masters
A,Unnamed: 1_level_2,Unnamed: 2_level_2
Boby,23.0,
John,,27.0
Mina,21.0,


In [27]:
df.pivot(index='B', columns='C')

Unnamed: 0_level_0,A,A,A
C,21,23,27
B,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Graduate,Mina,Boby,
Masters,,,John


In [28]:
df.pivot('A', 'C')

Unnamed: 0_level_0,B,B,B
C,21,23,27
A,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Boby,,Graduate,
John,,,Masters
Mina,Graduate,,


In [29]:
df.pivot('A', 'B', 'C')

B,Graduate,Masters
A,Unnamed: 1_level_1,Unnamed: 2_level_1
Boby,23.0,
John,,27.0
Mina,21.0,


In [32]:
# Da error porque el index 'John' está duplicado
df1 = pd.DataFrame({
    'A' : ['John', 'John', 'Mina'],
    'B' : ['Masters', 'Masters', 'Graduate'],
    'C' : [27,23,21]
})

df1.pivot(index='A', columns='B', values=['C'])

ValueError: Index contains duplicate entries, cannot reshape

## Apply
Permite a los usuarios pasar una función y aplicarla en cada valor de la serie Pandas.

In [None]:
df = pd.DataFrame({
    'A' : [1,2,3,4],
    'B' : [5,6,7,8],
    'C' : [9,10,11,12],
    'D' : [13,14,15,16]
})

df

In [None]:
df.apply(np.sqrt)

In [None]:
# Creo mi funcion
def elevar_cubo(y):
  return y**3

df['A'].apply(elevar_cubo)

## Astype
Permite cambiar el tipo de datos de las columnas de las columnas de un DataFrame.

In [33]:
df = pd.DataFrame({
    'key1' : ['a', 'a', 'b', 'b', 'a'],
    'key2' : ['one', 'two', 'one', 'two', 'one'],
    'data1' : np.random.randn(5),
    'data2' : np.random.randn(5)
})

df

Unnamed: 0,key1,key2,data1,data2
0,a,one,1.190757,-0.571146
1,a,two,-1.286262,-1.035249
2,b,one,0.219275,0.339667
3,b,two,-0.703302,0.875163
4,a,one,0.787726,1.673872


In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   key1    5 non-null      object 
 1   key2    5 non-null      object 
 2   data1   5 non-null      float64
 3   data2   5 non-null      float64
dtypes: float64(2), object(2)
memory usage: 288.0+ bytes


In [36]:
df['data1'] = df['data1'].astype(str)

In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   key1    5 non-null      object 
 1   key2    5 non-null      object 
 2   data1   5 non-null      object 
 3   data2   5 non-null      float64
dtypes: float64(1), object(3)
memory usage: 288.0+ bytes


## Value_counts
Cuenta cuántos valores únicos hay en cada columna. Es muy útil para datos categóricos.

In [38]:
df = pd.DataFrame({
    'key1' : ['a', 'a', 'b', 'b', 'a'],
    'key2' : ['one', 'two', 'one', 'two', 'one'],
    'data1' : np.random.randn(5),
    'data2' : np.random.randn(5)
})

df

Unnamed: 0,key1,key2,data1,data2
0,a,one,-1.01239,-0.571796
1,a,two,0.62481,0.424574
2,b,one,-0.098593,0.550347
3,b,two,0.531217,1.393839
4,a,one,0.2492,0.1588


In [39]:
df.key1.value_counts()

a    3
b    2
Name: key1, dtype: int64

In [40]:
df.key2.value_counts()

one    3
two    2
Name: key2, dtype: int64

In [41]:
df.data2.value_counts()

-0.571796    1
 0.424574    1
 0.550347    1
 1.393839    1
 0.158800    1
Name: data2, dtype: int64

## Sorting index and values
Permite ordenar por índice o por columna seleccionada.

In [42]:
df = pd.DataFrame({'A' : [1,2,8,3,5]})
df.index=[100,29,234,1,150]

df

Unnamed: 0,A
100,1
29,2
234,8
1,3
150,5


In [43]:
df.sort_index(ascending=False)

Unnamed: 0,A
234,8
150,5
100,1
29,2
1,3


In [44]:
df.sort_values('A', ascending=False)

Unnamed: 0,A
234,8
150,5
1,3
29,2
100,1


## Melt
Es una función que permite cambiar el formato del dataframe a long. \
Se usa para crear un formato específico donde se usan columnas identificadoras. Todas las demás columnas se usan como valores. \
Pueden usar la función pivot para unmelt the output.

### Parte 1

In [45]:
df = pd.DataFrame({
    'P': {0: 'p', 1: 'q', 2: 'r'},
    'Q': {0: 2, 1: 4, 2: 6},
    'R': {0: 3, 1: 5, 2: 7}
})

df

Unnamed: 0,P,Q,R
0,p,2,3
1,q,4,5
2,r,6,7


In [46]:
pd.melt(df, id_vars=['P'], value_vars=['Q'])

Unnamed: 0,P,variable,value
0,p,Q,2
1,q,Q,4
2,r,Q,6


In [47]:
pd.melt(df, id_vars=['P'], value_vars=['Q', 'R'])

Unnamed: 0,P,variable,value
0,p,Q,2
1,q,Q,4
2,r,Q,6
3,p,R,3
4,q,R,5
5,r,R,7


Podemos customizar los nombres de las columnas

In [None]:
pd.melt(df, id_vars=['P'], value_vars=['Q'],
    var_name='Nombre_Variable', value_name='Nombre_valor')

En el caso que tengan multiindex por ejemplo

In [None]:
df.columns = [list('PQR'), list('STU')]
df

In [None]:
pd.melt(df, col_level=0, id_vars=['P'], value_vars=['Q'])

In [None]:
pd.melt(df, col_level=1, id_vars=['S'], value_vars=['Q'])

In [None]:
pd.melt(df, id_vars=[('P', 'S')], value_vars=[('Q', 'T')])

### Parte 2

In [None]:
df = pd.DataFrame({
    'Name': {0: 'John', 1: 'Bob', 2: 'Shiela'},
    'Course': {0: 'Masters', 1: 'Graduate', 2: 'Graduate'},
    'Age': {0: 27, 1: 23, 2: 21}
})

df

In [None]:
pd.melt(df, id_vars =['Name'], value_vars =['Course'])

In [None]:
# multiple unpivot columns
pd.melt(df, id_vars =['Name'], value_vars =['Course', 'Age'])

# DESAFIO

1. Investiguemos cuáles son los mejores clientes en ventas
2. Qué tipos de errores pueden observan en este dataset
3. Remover las filas duplicadas con base en la columna Nombre
4. Qué problemas observa en este dataset respecto a la estructura en una mayor escala


## Estudio de los datos

In [9]:
datos = pd.read_csv('../datasets/clase15/datos_empresas.csv')
datos.head()

Unnamed: 0,Id,Nombre,Ventas
0,1,Quasco,1500
1,2,Tutiro,1300
2,3,Tyuan,1900
3,4,Quantum,1200
4,5,Bertlitz,1400


In [64]:
datos.isnull().sum()

Id        0
Nombre    0
Ventas    0
dtype: int64

## Respuesta 1

In [61]:
datos_group = datos.groupby('Nombre').sum('Ventas')
datos_group.head()

Unnamed: 0_level_0,Id,Ventas
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Ascor,6,1700
Atom,12,1567
Attron,11,1346
Bertlitz,5,1400
Claro,15,1953


In [62]:
datos_group.sort_values(by='Ventas', ascending=False).head()

Unnamed: 0_level_0,Id,Ventas
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Quasco,14,3264
Claro,15,1953
JT-Log,30,1912
Tyuan,3,1900
Yuor,29,1876


## Respuesta 2
Quasco se puede considerar un error ya que duplica el valor de ventas que las demás empresas

## Respuesta 3

In [5]:
# Hay 1 caso de dato duplicado con base en la columna Nombre
datos.duplicated(subset='Nombre')

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12     True
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
dtype: bool

In [8]:
# No hay datos duplicados, ya que en Quasco el numero de ventas es distinto
datos_dp = datos.drop_duplicates(subset='Nombre')
datos_dp

Unnamed: 0,Id,Nombre,Ventas
0,1,Quasco,1500
1,2,Tutiro,1300
2,3,Tyuan,1900
3,4,Quantum,1200
4,5,Bertlitz,1400
5,6,Ascor,1700
6,7,Trition,1670
7,8,Teryu,1345
8,9,Oyude,1564
9,10,Yende,1567


## Respuesta 4
Si este dataset estuviera a mayor escala podemos ver que no hay un ID unico.