# Estructuras de datos: arrays, diccionarios, series y dataframes

## Carga de librerías base

In [2]:
import numpy as np
import pandas as pd

## 1. Creación de arrays con Numpy

In [3]:
# #Creating 1D arrays from list

list1D = [3, 2, 5, 8, 4, 9, 5]
print(type(list1D), list1D)

npArray = np.array(list1D)
print(type(npArray), npArray)

# Creación directa
print(np.array([1, 0, 0, 0], dtype=bool))

<class 'list'> [3, 2, 5, 8, 4, 9, 5]
<class 'numpy.ndarray'> [3 2 5 8 4 9 5]
[ True False False False]


In [4]:
#Creating 2D arrays from list

list2D = [[1,2,3,4],
        [5,6,7,8], 
        [9,0,10,11]]

npArray = np.array(list2D)

print(type(npArray), npArray)

<class 'numpy.ndarray'> [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9  0 10 11]]


<b> Diferencias entre objetos de tipo list y array
    
- Una lista puede contener diferentes datos de diferentes tipos.
- Un array de numpy solo puede contener datos del misto tipo.
    
Cuando enviamos diferentes tipos de datos ocurre una conversión automática.

In [4]:
# Conversión automática de tipos de datos:
listD = [1, 'casa', True, 1.5]
arrayD = np.array(listD); print(arrayD)

listD = [1, 7.8, True ,1.5]
arrayD = np.array(listD); print(arrayD)

['1' 'casa' 'True' '1.5']
[1.  7.8 1.  1.5]


In [5]:
# Funciones para crear arrays desde 0

print(np.zeros(10)) # array de 10 ceros.

print(np.random.random(10)) # array de números aleatorios

print(np.arange(10)) # array de los primeros 10 números, incluído el 0

# Para crear arreglos de más de una dimensión se deben enviar las dimensiones:
print(np.zeros((3, 2))) # array de ceros de dimensión 3x2.

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0.51578995 0.93063139 0.41965511 0.39020147 0.65533443 0.83087084
 0.45689399 0.45602502 0.15693534 0.08895028]
[0 1 2 3 4 5 6 7 8 9]
[[0. 0.]
 [0. 0.]
 [0. 0.]]


In [6]:
# Dimensión de lista y arreglos:

print(len(list2D)) # lista

print(len(npArray)) # arreglo

print(npArray.shape) # arreglo

# Tipos de datos:

print(type(list2D)) # para lista
print(npArray.dtype) # para elementos del array

3
3
(3, 4)
<class 'list'>
int64


In [7]:
# Acceso y recorrido:
print(list2D)

for i in list2D: # array bidimensional
    for j in i:
        print(j)
        
# El acceso a un elemento específico se realiza por su posición:
print('Fila 0)', list2D[0])

print('Elemento 0 de la fila 0)', list2D[0][0])

[[1, 2, 3, 4], [5, 6, 7, 8], [9, 0, 10, 11]]
1
2
3
4
5
6
7
8
9
0
10
11
Fila 0) [1, 2, 3, 4]
Elemento 0 de la fila 0) 1


## 2. Series

Una <b>Serie</b> es un vector que puede contener cualquier tipo de datos (integer, string, float, Python object, etc.). Las etiquetas de los ejes se denominan colectivamente índice.


> s = pd.Series(data, index=index)

<b>data</b> puede ser:

- un valor escalar
- una lista o un ndarray
- un diccionario python


<b> El accesso a elementos de una serie se puede realizar a través de dos métodos:</b>

- Por su posición
- Por su índice

#### Creación de series:

<b>a. Creación de una serie a partir de un tipo de dato simple</b>

In [8]:
# To create:
s = pd.Series('a'); print('letter as series', s)  # from a str (object)

print(type(s))  # <class 'pandas.core.series.Series'>

letter as series 0    a
dtype: object
<class 'pandas.core.series.Series'>


In [9]:
s = pd.Series(5); print('\nnumber as series', s) # from a number
# To access:

print('\n---------ACCESS-----------')
print('\nAccess to the content:', s[0])
print('\nAccess to the content and convert into a serie:', s[[0]])  # Acceder al contenido y convertir en serie 


number as series 0    5
dtype: int64

---------ACCESS-----------

Access to the content: 5

Access to the content and convert into a serie: 0    5
dtype: int64


<b> b. Creación de una serie a partir de una lista o array</b>

In [10]:
data = list(range(1,6))  # [1, 2, 3, 4, 5]
data

[1, 2, 3, 4, 5]

In [11]:
# Sin especificar índice, éste inicia desde 0
s = pd.Series(data) ; print('Índices por defecto\n', s)

# Acceso por su posición:
print('\nSegundo elemento: ', s[1])

print('\nPrimeros dos elementos: ', s[:2])

print('\nRango de elementos (slice): ', s[1:3])

Índices por defecto
 0    1
1    2
2    3
3    4
4    5
dtype: int64

Segundo elemento:  2

Primeros dos elementos:  0    1
1    2
dtype: int64

Rango de elementos (slice):  1    2
2    3
dtype: int64


In [12]:
# Especificando un índice
index=['a', 'e', 'i', 'o', 'u']
s = pd.Series(data, index=index) ; print('Índices pre-asignados\n', s)

# s = pd.Series(np.array(data), index=index)  # from array

# Acceso mediante su índice o posición:

print('\nSegundo elemento: ', s['e'], ' por su posición: ', s[1])

Índices pre-asignados
 a    1
e    2
i    3
o    4
u    5
dtype: int64

Segundo elemento:  2  por su posición:  2


In [13]:
s = pd.Series(np.random.randn(5), index=index); s

a    0.918363
e   -0.071881
i   -0.209027
o   -1.124497
u   -0.589781
dtype: float64

<b>c. Creación de una serie a partir de un diccionario</b>

In [14]:
vacunaDict = {'Asia': 'Israel', 'Sur América': 'Chile'}

In [15]:
vacunaSerie = pd.Series(vacunaDict); vacunaSerie
print(vacunaSerie['Sur América']) # acceso por el índice
vacunaSerie[1] # acceso por la posición

Chile


'Chile'

In [None]:
## 3. Diccionarios

In [16]:
# Declaración de un empleado
employee1 = {
'name': 'María',
'city': 'Loja',
'age': '26',
'gender': 'M',
'roles':['data analyst', 'master student']
}

In [17]:
# Acceso a claves un diccionario:
keys = employee1.keys()
print('Keys: \n', keys)

# Acceso a valores de un diccionario:
valuesE = employee1.values()
print('\nValues: \n', valuesE)

# Acceso a un valor específico, por ejemplo, el nombre:
print('Forma1:', employee1["name"], '\tForma2:', employee1.get("name"))

print('\nData:')

# Print all key names and values in the dictionary, one by one
for key in employee1:
    value = employee1[key] 
    print('\t',key, value) 

Keys: 
 dict_keys(['name', 'city', 'age', 'gender', 'roles'])

Values: 
 dict_values(['María', 'Loja', '26', 'M', ['data analyst', 'master student']])
Forma1: María 	Forma2: María

Data:
	 name María
	 city Loja
	 age 26
	 gender M
	 roles ['data analyst', 'master student']


In [9]:
#Lista de estudiantes:
estudiantes = [{
               "cédula":"1105742261",
               "nombres":"Jose Vasquez",
               "edad":"20",
               "carrera":"arquitectura",
               "asignaturas":{
                   "dibujo":7,
                   "moldeado":8.5
               },
               "promedio":7.75
               },
              {
               "cédula":"1103385914",
               "nombres":"Enith Calva",
               "edad":"21",
               "carrera":"computacion",
               "asignaturas":{
                   "programacion":7.5,
                   "base de datos":9
               },
               "promedio":8.25
               }
]; print(estudiantes)

[{'cédula': '1105742261', 'nombres': 'Jose Vasquez', 'edad': '20', 'carrera': 'arquitectura', 'asignaturas': {'dibujo': 7, 'moldeado': 8.5}, 'promedio': 7.75}, {'cédula': '1103385914', 'nombres': 'Enith Calva', 'edad': '21', 'carrera': 'computacion', 'asignaturas': {'programacion': 7.5, 'base de datos': 9}, 'promedio': 8.25}]


In [10]:
# Recorrido de una lista de diccionarios:
print('Longitud de la lista:', len(estudiantes),
      '. Cada componente de la lista es un diccionario.\n')
print('Claves de cada elemento de la lista (diccionario):\n\t',
      estudiantes[0].keys(), '\n')

print('\nObtención de datos, forma 1:')

#Forma 1: un solo ciclo repetitivo:
for e in estudiantes:
    #Imprimir solo valores:
    print(5*'-',e.get('cédula'), e['nombres'], e['edad'],
          e['carrera'], e['asignaturas'], e['promedio'])

print('\nObtención de datos, forma 2:')
#Forma 2: dos ciclos:
for e in estudiantes:
    #Imprimir solo valores:
    for k in e:
        if not(isinstance(e[k], dict)):
            print(5*'-','(',k, ':', e[k], ')')
        else:
            print(5*'-','(',k, ':', ', '.join(e[k]), ')')

Longitud de la lista: 2 . Cada componente de la lista es un diccionario.

Claves de cada elemento de la lista (diccionario):
	 dict_keys(['cédula', 'nombres', 'edad', 'carrera', 'asignaturas', 'promedio']) 


Obtención de datos, forma 1:
----- 1105742261 Jose Vasquez 20 arquitectura {'dibujo': 7, 'moldeado': 8.5} 7.75
----- 1103385914 Enith Calva 21 computacion {'programacion': 7.5, 'base de datos': 9} 8.25

Obtención de datos, forma 2:
----- ( cédula : 1105742261 )
----- ( nombres : Jose Vasquez )
----- ( edad : 20 )
----- ( carrera : arquitectura )
----- ( asignaturas : dibujo, moldeado )
----- ( promedio : 7.75 )
----- ( cédula : 1103385914 )
----- ( nombres : Enith Calva )
----- ( edad : 21 )
----- ( carrera : computacion )
----- ( asignaturas : programacion, base de datos )
----- ( promedio : 8.25 )


In [None]:
## 4. DataFrames

### Creación

- Creación desde un diccionario:

In [20]:
student1 = {
    "studentID": '123',
    "grades": {'FDA': 7.5, 'POO': 8.1},
    }
df1 = pd.DataFrame(student1);

# Inspección mediante head (primeros 5 filas) y tail (últimas 5 filas):
df1.head()

Unnamed: 0,studentID,grades
FDA,123,7.5
POO,123,8.1


In [21]:
# acceder a la primera fila:

print(df1.loc['FDA']) # acceder al contenido de toda la fila a través del nombre de la fila

print('\n', df1.iloc[0])  # acceder a través de la posición


studentID    123
grades       7.5
Name: FDA, dtype: object

 studentID    123
grades       7.5
Name: FDA, dtype: object


In [22]:
# accceder a una columna específica:
print('\n')
print(df1['studentID']) #acceder a una columna específica, como serie
print(df1[['studentID']]) #acceder a una columna específica, como dataframe



FDA    123
POO    123
Name: studentID, dtype: object
    studentID
FDA       123
POO       123


In [23]:
# acceder a un elemento específico

df1.loc['FDA']['grades'] 

7.5

In [24]:
# Tipos de datos del dataframe
df1.dtypes

studentID     object
grades       float64
dtype: object

In [25]:
df1.columns

Index(['studentID', 'grades'], dtype='object')

In [26]:
# Un atributo de un dataframe se extrae como Series:
for c in df1.columns:
    print(c, type(df1[c]))

# Tipo de dato específico del primer elemento de cada serie:
for c in df1.columns:
    print(c, type(df1[c][0]))

studentID <class 'pandas.core.series.Series'>
grades <class 'pandas.core.series.Series'>
studentID <class 'str'>
grades <class 'numpy.float64'>


- <b> Creación desde un archivo csv:</b>

In [9]:
# Crear desde un csv:

data = pd.read_csv('titanic.csv', sep=','); data.sample(7)


# También se puede utilizar read_table para cualquier archivo basado en texto:
#data = pd.read_table('titanic.csv', sep=',')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
284,285,0,1,"Smith, Mr. Richard William",male,,0,0,113056,26.0,A19,S
196,197,0,3,"Mernagh, Mr. Robert",male,,0,0,368703,7.75,,Q
285,286,0,3,"Stankovic, Mr. Ivan",male,33.0,0,0,349239,8.6625,,C
330,331,1,3,"McCoy, Miss. Agnes",female,,2,0,367226,23.25,,Q
156,157,1,3,"Gilnagh, Miss. Katherine ""Katie""",female,16.0,0,0,35851,7.7333,,Q
253,254,0,3,"Lobb, Mr. William Arthur",male,30.0,1,0,A/5. 3336,16.1,,S
618,619,1,2,"Becker, Miss. Marion Louise",female,4.0,2,1,230136,39.0,F4,S


### Acceso y filtrado de datos:

In [28]:
# Acceder a las filas 4 y 5
print(data[4:6])

# Acceder a una columna específica:
data['Name']


   PassengerId  Survived  Pclass                      Name   Sex   Age  SibSp   
4            5         0       3  Allen, Mr. William Henry  male  35.0      0  \
5            6         0       3          Moran, Mr. James  male   NaN      0   

   Parch  Ticket    Fare Cabin Embarked  
4      0  373450  8.0500   NaN        S  
5      0  330877  8.4583   NaN        Q  


0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

In [29]:
# Acceder a filas y columnas específicas:
data.loc[5:10, ['Name', 'Sex']]


Unnamed: 0,Name,Sex
5,"Moran, Mr. James",male
6,"McCarthy, Mr. Timothy J",male
7,"Palsson, Master. Gosta Leonard",male
8,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female
9,"Nasser, Mrs. Nicholas (Adele Achem)",female
10,"Sandstrom, Miss. Marguerite Rut",female


In [8]:
data.iloc[0]['Name']

'Braund, Mr. Owen Harris'

In [30]:
# Seleccionar las filas que cumplan cierta condición:

data[data['Sex'] == 'female'].head() #Mujeres


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [31]:
# Presentar lista de pasajeros identificados con ids 1 y 2:

data[data.PassengerId.isin([1, 2])]


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [32]:
# Filtrar dataframes según ciertas condiciones:

#Opción 1:
f1 = data[(data['Survived'] == 1) & (data['Pclass'] == 1)]  # Sobrevivientes de primera clase

#Opción 2:
f2 = data.query("Survived == 1 & Pclass == 1")  # Sobrevivientes de primera clase
f2.tail(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C


In [33]:
# Pasajeros que pagaron menos de :

data[data['Fare'] == min(data['Fare'])].loc[:, ['Name', 'PassengerId']]


Unnamed: 0,Name,PassengerId
179,"Leonard, Mr. Lionel",180
263,"Harrison, Mr. William",264
271,"Tornquist, Mr. William Henry",272
277,"Parkes, Mr. Francis ""Frank""",278
302,"Johnson, Mr. William Cahoone Jr",303
413,"Cunningham, Mr. Alfred Fleming",414
466,"Campbell, Mr. William",467
481,"Frost, Mr. Anthony Wood ""Archie""",482
597,"Johnson, Mr. Alfred",598
633,"Parr, Mr. William Henry Marsh",634


In [34]:
# Ordenar por varios atributos en orden descendente:

data.sort_values(['Name', 'Age'], ascending = False) # inplace=True para que se ordene el mismo objeto y no se cree una copia

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S
153,154,0,3,"van Billiard, Mr. Austin Blyler",male,40.5,0,2,A/5. 851,14.5000,,S
361,362,0,2,"del Carlo, Mr. Sebastiano",male,29.0,1,0,SC/PARIS 2167,27.7208,,C
282,283,0,3,"de Pelsmaeker, Mr. Alfons",male,16.0,0,0,345778,9.5000,,S
286,287,1,3,"de Mulder, Mr. Theodore",male,30.0,0,0,345774,9.5000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
874,875,1,2,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0,1,0,P/PP 3381,24.0000,,C
308,309,0,2,"Abelson, Mr. Samuel",male,30.0,1,0,P/PP 3381,24.0000,,C
279,280,1,3,"Abbott, Mrs. Stanton (Rosa Hunt)",female,35.0,1,1,C.A. 2673,20.2500,,S
746,747,0,3,"Abbott, Mr. Rossmore Edward",male,16.0,1,1,C.A. 2673,20.2500,,S
