# Representación de datos con tensores.


In [2]:
import torch
import numpy as np
import pandas as pd

In [9]:
numpyArray = np.random.randn(2,2)

tensor_a = torch.from_numpy(numpyArray)
print(tensor_a)

tensor([[0.1674, 1.4663],
        [0.1407, 0.8332]], dtype=torch.float64)


### Media de un tensor.
Para ver visualmente lo de las dimensiones de los tensores leer [esto](https://towardsdatascience.com/understanding-dimensions-in-pytorch-6edf9972d3be)
Para este caso:
#### dim = 0 : 
representa una colisión entre ambos tensores, halla las medias de las posiciones iguales. tensor_a[0][0] y tensor_a[1][0] 

#### dim = 1:
representa una colisión entre las columnas de cada tensor.

Nota: El comportamiento puede tomar ligeras variaciones según las dimensiones del tensor.

In [15]:
print(tensor_a)
print(torch.mean(tensor_a))
print(torch.mean(tensor_a, dim=0))
print(torch.mean(tensor_a, dim=1))

tensor([[0.1674, 1.4663],
        [0.1407, 0.8332]], dtype=torch.float64)
tensor(0.6519, dtype=torch.float64)
tensor([0.1541, 1.1497], dtype=torch.float64)
tensor([0.8169, 0.4870], dtype=torch.float64)


### Desviación estandar.

In [16]:
print(torch.std(tensor_a,dim = 0))

tensor([0.0189, 0.4476], dtype=torch.float64)


### Guardar un tensor.

In [17]:
torch.save(tensor_a, 'tensor.t')

### Cargar un tensor.

In [18]:
load = torch.load('tensor.t')
print(load)

tensor([[0.1674, 1.4663],
        [0.1407, 0.8332]], dtype=torch.float64)


### Cargar datos con pandas.


In [6]:
url = "https://raw.githubusercontent.com/amanthedorkknight/fifa18-all-player-statistics/master/2019/data.csv"
dataframe = pd.read_csv(url)
print(dataframe)

       Unnamed: 0      ID                  Name  Age  \
0               0  158023              L. Messi   31   
1               1   20801     Cristiano Ronaldo   33   
2               2  190871             Neymar Jr   26   
3               3  193080                De Gea   27   
4               4  192985          K. De Bruyne   27   
5               5  183277             E. Hazard   27   
6               6  177003             L. Modrić   32   
7               7  176580             L. Suárez   31   
8               8  155862          Sergio Ramos   32   
9               9  200389              J. Oblak   25   
10             10  188545        R. Lewandowski   29   
11             11  182521              T. Kroos   28   
12             12  182493              D. Godín   32   
13             13  168542           David Silva   32   
14             14  215914              N. Kanté   27   
15             15  211110             P. Dybala   24   
16             16  202126               H. Kane 

[18207 rows x 89 columns]


### Consultar las columnas de un csv en pandas.

In [7]:
dataframe.columns

Index(['Unnamed: 0', 'ID', 'Name', 'Age', 'Photo', 'Nationality', 'Flag',
       'Overall', 'Potential', 'Club', 'Club Logo', 'Value', 'Wage', 'Special',
       'Preferred Foot', 'International Reputation', 'Weak Foot',
       'Skill Moves', 'Work Rate', 'Body Type', 'Real Face', 'Position',
       'Jersey Number', 'Joined', 'Loaned From', 'Contract Valid Until',
       'Height', 'Weight', 'LS', 'ST', 'RS', 'LW', 'LF', 'CF', 'RF', 'RW',
       'LAM', 'CAM', 'RAM', 'LM', 'LCM', 'CM', 'RCM', 'RM', 'LWB', 'LDM',
       'CDM', 'RDM', 'RWB', 'LB', 'LCB', 'CB', 'RCB', 'RB', 'Crossing',
       'Finishing', 'HeadingAccuracy', 'ShortPassing', 'Volleys', 'Dribbling',
       'Curve', 'FKAccuracy', 'LongPassing', 'BallControl', 'Acceleration',
       'SprintSpeed', 'Agility', 'Reactions', 'Balance', 'ShotPower',
       'Jumping', 'Stamina', 'Strength', 'LongShots', 'Aggression',
       'Interceptions', 'Positioning', 'Vision', 'Penalties', 'Composure',
       'Marking', 'StandingTackle', 'SlidingT

### Crear un subset de datos en Pandas.
.dropna() nos ayuda a eliminar datos que no deseemos.

El parametro axis recibe dos valores 0 y 1.
0 si queremos borrar la fila donde encontremos valores faltantes.
1 si quiere borrar la columna.

how recibe cómo parametros 'any' y 'all'
'any' significa que si existe al menos un valor NA en alguna columna, haga lo que indica el parametro axis.
'all' significa que si todos los valores son NA, se borra la fila


In [30]:
subset = dataframe[['Overall','Age','International Reputation', 'Weak Foot',
       'Skill Moves']].dropna(axis = 0,how= 'any')

columns = subset.columns[1:]
# Convertimos los datos del subset en un tensor
players = torch.tensor(subset.values).float()
players.shape, players.type()

(torch.Size([18159, 5]), 'torch.FloatTensor')

### Notación de tensores.
Aquí tomamos todas las filas (':') y empezamos desde la columna 1 ('1:').

In [21]:
data = players[:, 1:]
data, data.shape

(tensor([[31.,  5.,  4.,  4.],
         [33.,  5.,  4.,  5.],
         [26.,  5.,  5.,  5.],
         ...,
         [16.,  1.,  3.,  2.],
         [17.,  1.,  3.,  2.],
         [16.,  1.,  3.,  2.]]), torch.Size([18159, 4]))

Hallamos una media del Overall de los jugadores.

In [26]:
target = players[:, 0]
target, target.shape

(tensor([94., 94., 92.,  ..., 47., 47., 46.]), torch.Size([18159]))

In [22]:
mean = torch.mean(data, dim=0)
mean

tensor([25.1225,  1.1132,  2.9473,  2.3613])

#### Desviación estandar.

In [23]:
std = torch.std(data, dim=0)
std

tensor([4.6706, 0.3940, 0.6605, 0.7562])

#### Normalización.

In [24]:
norm = (data - mean)/std
norm

tensor([[ 1.2584,  9.8641,  1.5939,  2.1671],
        [ 1.6866,  9.8641,  1.5939,  3.4896],
        [ 0.1879,  9.8641,  3.1080,  3.4896],
        ...,
        [-1.9532, -0.2873,  0.0798, -0.4778],
        [-1.7391, -0.2873,  0.0798, -0.4778],
        [-1.9532, -0.2873,  0.0798, -0.4778]])

### Clasificación.
- .ge(tensor, number) -> greater equal >= el método toma los valores que sean mayores o igual a number.
- .gt(tensor, number) -> greater than > el método toma los valores que sean estrictamente mayores.
- .lt(tensor, number) -> less than < menores estrictamente.
- .le(tensor, number) -> less equal


In [32]:
good = data[torch.ge(target,85)]
average = data[torch.gt(target, 70) & torch.lt(target, 85)]
notSoGood = data[torch.le(target,70)]

goodMean = torch.mean(good, dim = 0)
averageMean = torch.mean(average, dim = 0)
notSoGoodMean = torch.mean(notSoGood, dim = 0)

for i, args in enumerate(zip(columns, goodMean, averageMean, notSoGoodMean)):
  print('{:25} {:6.2f} {:6.2f} {:6.2f}'.format (*args))

Age                        28.35  27.23  24.37
International Reputation    3.38   1.36   1.01
Weak Foot                   3.45   3.11   2.89
Skill Moves                 3.04   2.75   2.22
