# Introducción

En este notebook se hace un repaso a las funciones y métodos más utilizadas en el manejo de datos: tuplas, arrays, etc. También contiene algunos ejemplos con la biblioteca pandas, y cómo realizar algunas funciones básicas con DataFrames.

## Estructuras de datos

* __Tuplas__ para agrupar objetos de diferentes tipos

In [1]:
import numpy as np
tupla1 = ('abc', np.arange(0,10,0.5), 2.5)
tupla1

('abc',
 array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. ,
        6.5, 7. , 7.5, 8. , 8.5, 9. , 9.5]),
 2.5)

In [2]:
tupla1[2]

2.5

* __Listas__ para agrupar objetos del mismo tipo

In [3]:
lista1 = ['abc', 'def', 'ghi']
lista2 = [1,2,3]
lista3 = [4,5,6]

In [4]:
print(lista2 + lista3)
print(lista1+lista2 + lista3)


[1, 2, 3, 4, 5, 6]
['abc', 'def', 'ghi', 1, 2, 3, 4, 5, 6]


* __Arrays__ son vectores y matrices para manipulación numérica

In [5]:
array1 = np.array(lista2)
array2 = np.array(lista3)
array1

array([1, 2, 3])

In [6]:
array1 + array2

array([5, 7, 9])

* __Diccionarios__ son colecciones no ordenadas de contenido 

In [7]:
diccionario1 = dict(uno=1, dos=2, info='alguna info')
diccionario2 = {'uno':1, 'dos':2, 'info':'otra info'}
diccionario1['info']

'alguna info'

In [8]:
diccionario2.keys()

dict_keys(['uno', 'dos', 'info'])

### Un poco más sobre vectores y arrays

> Importante: recordad que en Python __el indexado comienza en 0__ y que al indicar el rango de índices, el último no se considera incluído

In [9]:
a = np.arange(1.0, 10.0, 0.5) # No incluye el 10!
a[:]


array([1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5, 7. ,
       7.5, 8. , 8.5, 9. , 9.5])

In [10]:
a[2:5] # Índices 2, 3 y 4, pero no el 5

array([2. , 2.5, 3. ])

In [11]:
a[2:]

array([2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5, 7. , 7.5, 8. ,
       8.5, 9. , 9.5])

In [12]:
a[:2] # Índices 0 y 1

array([1. , 1.5])

### Pueden utilizarse también números negativos para empezar el indexado desde el final la estructura

In [13]:
a[-1]

9.5

In [14]:
a[-2:]

array([9. , 9.5])

In [15]:
np.zeros(3) # Vector o array de ceros

array([0., 0., 0.])

In [16]:
np.zeros( (2,3) ) # Matriz: lista de listas

array([[0., 0., 0.],
       [0., 0., 0.]])

In [17]:
np.ones(4) # Vector

array([1., 1., 1., 1.])

In [18]:
np.arange(1,3,0.5) # Vector que no incluye el 3.
# Este procedimiento bueno para que no haya solape entre vectores

array([1. , 1.5, 2. , 2.5])

In [19]:
np.arange(3,5,0.5)

array([3. , 3.5, 4. , 4.5])

In [20]:
np.linspace(0,10,6) # Para incluir ambos extremos

array([ 0.,  2.,  4.,  6.,  8., 10.])

In [21]:
np.array([[2,3], [4,5]])

array([[2, 3],
       [4, 5]])

> __Importante__: un vector no es lo mismo que una matriz de una dimensión. El vector NO se puede transponer (se queda igual), la matriz sí.

In [22]:
x = np.arange(3)
print(x)
print(x.T == x)

[0 1 2]
[ True  True  True]


In [23]:
A = np.array([[2,3], [4,5]])
A.T == A

array([[ True, False],
       [False,  True]])

## DataFrame: Estructuras de datos optimizadas para trabajar con variables estadísticas

In [24]:
import pandas as pd

data = pd.DataFrame({
    'Sexo': ['F', 'M', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'M'],
    'TiempoTwitter': [0.1, 0.5, 0.1, 0.2, 0.2, 0.3, 1.1, 1.21, 0.8, 0.9],
    'TiempoFacebook': [1.1, 0.5, 0.9, 0.8, 0.75, 0.35, 1.1, 1.1, 0.8, 0.9],
})

data

Unnamed: 0,Sexo,TiempoTwitter,TiempoFacebook
0,F,0.1,1.1
1,M,0.5,0.5
2,M,0.1,0.9
3,F,0.2,0.8
4,M,0.2,0.75
5,F,0.3,0.35
6,M,1.1,1.1
7,F,1.21,1.1
8,M,0.8,0.8
9,M,0.9,0.9


In [25]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Sexo            10 non-null     object 
 1   TiempoTwitter   10 non-null     float64
 2   TiempoFacebook  10 non-null     float64
dtypes: float64(2), object(1)
memory usage: 368.0+ bytes


In [26]:
data.TiempoTwitter

0    0.10
1    0.50
2    0.10
3    0.20
4    0.20
5    0.30
6    1.10
7    1.21
8    0.80
9    0.90
Name: TiempoTwitter, dtype: float64

In [27]:
data['TiempoTwitter']

0    0.10
1    0.50
2    0.10
3    0.20
4    0.20
5    0.30
6    1.10
7    1.21
8    0.80
9    0.90
Name: TiempoTwitter, dtype: float64

#### Selección de filas y columnas

In [28]:
data.head(3)

Unnamed: 0,Sexo,TiempoTwitter,TiempoFacebook
0,F,0.1,1.1
1,M,0.5,0.5
2,M,0.1,0.9


In [29]:
data.tail()

Unnamed: 0,Sexo,TiempoTwitter,TiempoFacebook
5,F,0.3,0.35
6,M,1.1,1.1
7,F,1.21,1.1
8,M,0.8,0.8
9,M,0.9,0.9


In [30]:
data.loc[0,:] # Seleccionando filas y columnas por ÍNDICES o ETIQUETAS

Sexo                F
TiempoTwitter     0.1
TiempoFacebook    1.1
Name: 0, dtype: object

In [31]:
# Do not execute: wrong!
#data.loc[1:2,0:1] 

In [32]:
data.loc[[0,1,2], :]

Unnamed: 0,Sexo,TiempoTwitter,TiempoFacebook
0,F,0.1,1.1
1,M,0.5,0.5
2,M,0.1,0.9


In [33]:
data.loc[0:2, :] # Inclusivo en ambos lados 0 y 2!

Unnamed: 0,Sexo,TiempoTwitter,TiempoFacebook
0,F,0.1,1.1
1,M,0.5,0.5
2,M,0.1,0.9


In [34]:
data.loc[0:2, ['Sexo', 'TiempoFacebook']] 
# Seleccionamos columnas (variables)

Unnamed: 0,Sexo,TiempoFacebook
0,F,1.1
1,M,0.5
2,M,0.9


In [35]:
data.loc[0:2, 'Sexo':'TiempoFacebook'] # IDEM

Unnamed: 0,Sexo,TiempoTwitter,TiempoFacebook
0,F,0.1,1.1
1,M,0.5,0.5
2,M,0.1,0.9


In [36]:
data.head(3).drop('TiempoTwitter', axis=1) # IDEM

Unnamed: 0,Sexo,TiempoFacebook
0,F,1.1
1,M,0.5
2,M,0.9


In [37]:
data.loc[data.Sexo == 'M', :] # Selecccion con condicionales

Unnamed: 0,Sexo,TiempoTwitter,TiempoFacebook
1,M,0.5,0.5
2,M,0.1,0.9
4,M,0.2,0.75
6,M,1.1,1.1
8,M,0.8,0.8
9,M,0.9,0.9


In [38]:
data.loc[data.Sexo == 'M', 'TiempoFacebook'] # Selecccion con condicionales

1    0.50
2    0.90
4    0.75
6    1.10
8    0.80
9    0.90
Name: TiempoFacebook, dtype: float64

In [39]:
data.iloc[:,0:2] # Seleccionamos con las POSICIONES
# NO ES INCLUSIVO POR LA DERECHA

Unnamed: 0,Sexo,TiempoTwitter
0,F,0.1
1,M,0.5
2,M,0.1
3,F,0.2
4,M,0.2
5,F,0.3
6,M,1.1
7,F,1.21
8,M,0.8
9,M,0.9


In [40]:
# NO RECOMENDABLE. HAY QUE RECORDAR UNA LOGICA: PRIMERO LISTA, 
# DESPUES SECUENCIA
data[['Sexo', 'TiempoTwitter']][4:10]

Unnamed: 0,Sexo,TiempoTwitter
4,M,0.2
5,F,0.3
6,M,1.1
7,F,1.21
8,M,0.8
9,M,0.9


In [41]:
data.set_index('Sexo')

Unnamed: 0_level_0,TiempoTwitter,TiempoFacebook
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
F,0.1,1.1
M,0.5,0.5
M,0.1,0.9
F,0.2,0.8
M,0.2,0.75
F,0.3,0.35
M,1.1,1.1
F,1.21,1.1
M,0.8,0.8
M,0.9,0.9


In [42]:
data # We did not change data

Unnamed: 0,Sexo,TiempoTwitter,TiempoFacebook
0,F,0.1,1.1
1,M,0.5,0.5
2,M,0.1,0.9
3,F,0.2,0.8
4,M,0.2,0.75
5,F,0.3,0.35
6,M,1.1,1.1
7,F,1.21,1.1
8,M,0.8,0.8
9,M,0.9,0.9


In [43]:
data.set_index('Sexo', inplace=True)

In [44]:
data

Unnamed: 0_level_0,TiempoTwitter,TiempoFacebook
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
F,0.1,1.1
M,0.5,0.5
M,0.1,0.9
F,0.2,0.8
M,0.2,0.75
F,0.3,0.35
M,1.1,1.1
F,1.21,1.1
M,0.8,0.8
M,0.9,0.9


In [45]:
# Deshacer el cambio
data.reset_index(inplace=True)
#data.reset_index(drop=True, inplace=True)
data

Unnamed: 0,Sexo,TiempoTwitter,TiempoFacebook
0,F,0.1,1.1
1,M,0.5,0.5
2,M,0.1,0.9
3,F,0.2,0.8
4,M,0.2,0.75
5,F,0.3,0.35
6,M,1.1,1.1
7,F,1.21,1.1
8,M,0.8,0.8
9,M,0.9,0.9


#### Selección multiple a través de filtros

In [46]:
data[data.TiempoFacebook > 1.0] # Una sola condicion

Unnamed: 0,Sexo,TiempoTwitter,TiempoFacebook
0,F,0.1,1.1
6,M,1.1,1.1
7,F,1.21,1.1


In [47]:
# Multiples criterios
data[(data.TiempoFacebook > 1.0) & (data.Sexo == 'M')] 

Unnamed: 0,Sexo,TiempoTwitter,TiempoFacebook
6,M,1.1,1.1


In [48]:
# Multiples criterios
data[(data.TiempoFacebook > 1.0) | (data.Sexo == 'M')] 

Unnamed: 0,Sexo,TiempoTwitter,TiempoFacebook
0,F,0.1,1.1
1,M,0.5,0.5
2,M,0.1,0.9
4,M,0.2,0.75
6,M,1.1,1.1
7,F,1.21,1.1
8,M,0.8,0.8
9,M,0.9,0.9


In [49]:
# Multiples criterios con la MISMA VARIABLE
data[(data.Sexo == 'M') | (data.Sexo == 'F')]

Unnamed: 0,Sexo,TiempoTwitter,TiempoFacebook
0,F,0.1,1.1
1,M,0.5,0.5
2,M,0.1,0.9
3,F,0.2,0.8
4,M,0.2,0.75
5,F,0.3,0.35
6,M,1.1,1.1
7,F,1.21,1.1
8,M,0.8,0.8
9,M,0.9,0.9


In [50]:
(data.Sexo == 'M') | (data.Sexo == 'F')

0    True
1    True
2    True
3    True
4    True
5    True
6    True
7    True
8    True
9    True
Name: Sexo, dtype: bool

In [51]:
data.Sexo.isin(['F', 'M'])

0    True
1    True
2    True
3    True
4    True
5    True
6    True
7    True
8    True
9    True
Name: Sexo, dtype: bool

In [52]:
data[data.Sexo.isin(['H', 'M'])]

Unnamed: 0,Sexo,TiempoTwitter,TiempoFacebook
1,M,0.5,0.5
2,M,0.1,0.9
4,M,0.2,0.75
6,M,1.1,1.1
8,M,0.8,0.8
9,M,0.9,0.9


In [53]:
print(data)
data.to_csv('datasets/datosRedesSociales.csv',index=False)
# Guardamos los datos __sin el índice__

  Sexo  TiempoTwitter  TiempoFacebook
0    F           0.10            1.10
1    M           0.50            0.50
2    M           0.10            0.90
3    F           0.20            0.80
4    M           0.20            0.75
5    F           0.30            0.35
6    M           1.10            1.10
7    F           1.21            1.10
8    M           0.80            0.80
9    M           0.90            0.90


# Carga de Datos externa

In [54]:
data = pd.read_csv('datasets/datosRedesSociales.csv') 
# Recordemos que pandas está cargado como pd

In [55]:
data

Unnamed: 0,Sexo,TiempoTwitter,TiempoFacebook
0,F,0.1,1.1
1,M,0.5,0.5
2,M,0.1,0.9
3,F,0.2,0.8
4,M,0.2,0.75
5,F,0.3,0.35
6,M,1.1,1.1
7,F,1.21,1.1
8,M,0.8,0.8
9,M,0.9,0.9


In [56]:
ufo = pd.read_csv('https://raw.githubusercontent.com/luis-sarro/introstats/master/datasets/ufo.csv')
ufo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18241 entries, 0 to 18240
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   City             18216 non-null  object
 1   Colors Reported  2882 non-null   object
 2   Shape Reported   15597 non-null  object
 3   State            18241 non-null  object
 4   Time             18241 non-null  object
dtypes: object(5)
memory usage: 712.7+ KB


# Interacción Python - R

La forma más sencilla de interacción entre Python y R es através de la carga de datos de un entorno a otro. Si este es el caso, recomendamos utilizar el paquete Feather https://blog.rstudio.com/2016/03/29/feather/ con el que podrán grabarse y cargarse datos en formato __feather__ para uno y otro entorno.

Una interacción más fuerte entre Python y R sería aquella en la que es necesario utilizar algunas de las funciones de un entorno en el otro. Para ese cometido tendríamos:

* Desde el el entorno Python podemos llamar a funciones de R con la biblioteca __Rpy2__:

https://rpy2.github.io/doc/latest/html/introduction.html


* Desde el entorno de programación Rstudio, por ejemplo, podemos instalar el paquete __reticulate__:

https://github.com/rstudio/reticulate
