# Estructuras de Datos en Python



1.   **[Introducción a listas](#1)**
2.   **[Modificar el contenide de una lista](#2)**
3.   **[Introducción a tuplas](#3)**
4.   **[Mas con bucles, listas, y tuplas](#4)**
5.   **[Introducción a diccionarios](#5)**
6.   **[Metodos de Diccionarios](#6)**
7.   **[Introducción a conjuntos](#7)**
8.   **[Introducción a NumPy](#8)**
9.   **[Operaciones Basicas de vectores](#9)**
10.   **[Introducción a pandas](#10)**
11.   **[pandas basico](#11)**
12.   **[Mascaras Booleanas](#12)**
13.   **[Agrupacion y agregación](#13)**
14.   **[Uniendo y fusionando datos](#14)**


<a name="1"></a>
## 1. Introducción a listas

In [1]:
# Asignar una lista usando corchetes, con elementos separados por comas.

x = ["Ahora", "estamos", "cocinando", "con", "7", "ingredientes"]
# Imprimir el elemento en el índice 3.

print(x[3])

con


In [2]:
# Intentar acceder a un índice que no está en la lista resultará en un IndexError.
print(x[7])

IndexError: list index out of range

In [3]:
# Acceder a una parte de una lista mediante el uso de "slicing".
x[1:3]

['estamos', 'cocinando']

In [4]:
# Omitir el primer valor del "slice" implica un valor de 0.
x[:2]

['Ahora', 'estamos']

In [5]:
# Omitir el último valor del "slice" implica un valor de len(lista).
x[2:]

['cocinando', 'con', '7', 'ingredientes']

In [6]:
# Verificar el tipo de datos de un objeto usando la función type().
type(x)

list

In [8]:

# La palabra clave  `in`  te permite verificar si un valor está contenido en la lista.
x = ["Ahora", "estamos", "cocinando", "con", 7, "ingredientes"]
"Esto" in x

False

<a name="2"></a>
## 2. Modificar el contenide de una lista 

In [15]:
# El método append() agrega un elemento al final de una lista.
frutas = ['Piña', 'Plátano', 'Manzana', 'Melón']
frutas.append('Kiwi')
print(frutas)

['Piña', 'Plátano', 'Manzana', 'Melón', 'Kiwi']


In [16]:
# El método insert() agrega un elemento a una lista en el índice especificado.
frutas.insert(1, 'Naranja')
print(frutas)

['Piña', 'Naranja', 'Plátano', 'Manzana', 'Melón', 'Kiwi']


In [17]:
# El método insert() agrega un elemento a una lista en el índice especificado.
frutas.insert(0, 'Mango')
print(frutas)

['Mango', 'Piña', 'Naranja', 'Plátano', 'Manzana', 'Melón', 'Kiwi']


In [18]:
# El método remove() elimina la primera aparición de un elemento en una lista.
frutas.remove('Plátano')
print(frutas)

['Mango', 'Piña', 'Naranja', 'Manzana', 'Melón', 'Kiwi']


In [19]:
# Intentar eliminar un elemento que no existe resulta en un error.
frutas.remove('Fresa')
print(frutas)

ValueError: list.remove(x): x not in list

In [20]:
# El método pop() elimina el elemento en el índice dado y lo devuelve.
# Si no se especifica un índice, elimina y devuelve el último elemento.
fruta_eliminada = frutas.pop(2)
print(frutas)
print()
print(fruta_eliminada)

['Mango', 'Piña', 'Manzana', 'Melón', 'Kiwi']

Naranja


In [21]:
# Reasignar el elemento en un índice dado con un nuevo valor.
frutas[1] = 'Mango'

In [23]:
print(frutas)

['Mango', 'Mango', 'Manzana', 'Melón', 'Kiwi']


In [24]:
# Las cadenas de texto son inmutables, por lo que necesitas reasignarlas para modificarlas.
potencia = '1.21'
potencia = potencia + ' gigavatios'
print(potencia)

1.21 gigavatios


In [25]:
# No puedes reasignar un carácter específico dentro de una cadena de texto.
power[0] = '2'

NameError: name 'power' is not defined

In [26]:
# Las listas son mutables porque puedes sobrescribir sus elementos.
potencia = [1.21, 'gigavatios']
potencia[0] = 2.21
print(potencia)

[2.21, 'gigavatios']


<a name="3"></a>
## 3. Introducción a tuplas

In [27]:
# Las tuplas se instancian con paréntesis.

nombre_completo = ('Masha', 'Z', 'Hopper')

# Las tuplas son inmutables, por lo que no se pueden sobrescribir sus elementos.
#fullname[2] = 'Copper'

print(nombre_completo)

('Masha', 'Z', 'Hopper')


In [28]:
# Puedes combinar tuplas usando la adición.
nombre_completo = nombre_completo + ('Jr',)
print(nombre_completo)

('Masha', 'Z', 'Hopper', 'Jr')


In [29]:
# La función tuple() convierte el tipo de datos de un objeto a una tupla.
nombre_completo = ['Masha', 'Z', 'Hopper']
nombre_completo = tuple(nombre_completo)
print(nombre_completo)

('Masha', 'Z', 'Hopper')


In [31]:
# Las funciones que devuelven múltiples valores los retornan en una tupla.
def a_dolares_centavos(precio):
    '''
    Divide el precio (float) en dólares y centavos.
    '''
    dolares = int(precio // 1)
    centavos = round(precio % 1 * 100)
    return dolares, centavos

In [32]:
# Las funciones que devuelven múltiples valores los retornan en una tupla.
a_dolares_centavos(6.55)

(6, 55)

In [33]:
# "Desempaquetar" una tupla permite asignar los elementos de la tupla a variables.
dolares, centavos = a_dolares_centavos(6.55)
print(dolares + 1)
print(centavos + 1)

7
56


In [35]:
# El tipo de datos de un elemento de una tupla desempaquetada no necesariamente es una tupla.
type(dolares)

int

In [36]:
# Crea una lista de tuplas, cada una representando el nombre, edad y posición de una jugadora en un equipo de baloncesto.
equipo = [('Marta', 20, 'centro'),
          ('Ana', 22, 'base'),
          ('Gabi', 22, 'escolta'),
          ('Luz', 21, 'ala-pívot'),
          ('Lorena', 19, 'alero'),
            ]

In [37]:
# Utiliza un bucle for para recorrer la lista, desempaqueta la tupla en cada iteración y
# imprime uno de los valores.
for nombre, edad, posición in equipo:
    print(nombre)

Marta
Ana
Gabi
Luz
Lorena


In [38]:
# La función tuple() convierte el tipo de datos de un objeto a una tupla.
nombre_completo = ['Masha', 'Z', 'Hopper']
nombre_completo = tuple(nombre_completo)
print(nombre_completo)

('Masha', 'Z', 'Hopper')


In [39]:
# Este código produce el mismo resultado que el código en la celda anterior.
for jugador in equipo:
    print(jugador[0])

Marta
Ana
Gabi
Luz
Lorena


<a name="4"></a>
## 4. Mas con bucles, listas, y tuplas

In [42]:
equipo = [('Marta', 20, 'centro'),
          ('Ana', 22, 'base'),
          ('Gabi', 22, 'escolta'),
          ('Luz', 21, 'ala-pívot'),
          ('Lorena', 19, 'alero'),
            ]

In [58]:
# Crea una función para extraer los nombres y las posiciones de la lista de jugadores y
# formatearlos para imprimirlos. Devuelve una lista.
def player_position(jugadores):
    resultado = []
    for nombre, edad, posicion in jugadores:
        resultado.append('Nombre:   {:<15} \nPosición: {:<15}\n'.format(nombre, posicion))
    return resultado

In [59]:
# Recorre la lista de nombres y posiciones formateados producidos por la función
# player_position() e imprímelos.
for jugador in player_position(equipo):
    print(jugador)

Nombre:   Marta           
Posición: centro         

Nombre:   Ana             
Posición: base           

Nombre:   Gabi            
Posición: escolta        

Nombre:   Luz             
Posición: ala-pívot      

Nombre:   Lorena          
Posición: alero          



In [60]:
# Los bucles anidados pueden generar las diferentes combinaciones de puntos en un conjunto de dominós.
for izquierda in range(7):
    for derecha in range(izquierda, 7):
        print(f"[{izquierda}|{derecha}]", end=" ")
    print('\n')

[0|0] [0|1] [0|2] [0|3] [0|4] [0|5] [0|6] 

[1|1] [1|2] [1|3] [1|4] [1|5] [1|6] 

[2|2] [2|3] [2|4] [2|5] [2|6] 

[3|3] [3|4] [3|5] [3|6] 

[4|4] [4|5] [4|6] 

[5|5] [5|6] 

[6|6] 



In [61]:
# Crea una lista de dominós, donde cada dominó está representado como una tupla.
dominos = []
for izquierda in range(7):
    for derecha in range(izquierda, 7):
        dominos.append((izquierda, derecha))
dominos

[(0, 0),
 (0, 1),
 (0, 2),
 (0, 3),
 (0, 4),
 (0, 5),
 (0, 6),
 (1, 1),
 (1, 2),
 (1, 3),
 (1, 4),
 (1, 5),
 (1, 6),
 (2, 2),
 (2, 3),
 (2, 4),
 (2, 5),
 (2, 6),
 (3, 3),
 (3, 4),
 (3, 5),
 (3, 6),
 (4, 4),
 (4, 5),
 (4, 6),
 (5, 5),
 (5, 6),
 (6, 6)]

In [None]:
# Select index 1 of the tuple at index 4 in the list of dominoes.
dominoes[4][1]

In [62]:
# Puedes usar un bucle for para sumar los puntos en cada dominó y agregar
# la suma a una nueva lista.
puntos_desde_bucle = []
for domino in dominos:
    puntos_desde_bucle.append(domino[0] + domino[1])
print(puntos_desde_bucle)

[0, 1, 2, 3, 4, 5, 6, 2, 3, 4, 5, 6, 7, 4, 5, 6, 7, 8, 6, 7, 8, 9, 8, 9, 10, 10, 11, 12]


In [64]:
# Una comprensión de lista produce el mismo resultado con menos código.
# una lista por comprensión es una manera de hecer el bucle in situ en la lista
puntos_desde_comp_lista = [ domino[0] + domino[1] for domino in dominos ]
puntos_desde_bucle == puntos_desde_comp_lista

True

<a name="5"></a>
## 5. Introducción a diccionarios

In [65]:
# Crea un diccionario con los corrales como claves y los animales que contienen como valores.
# Los diccionarios se pueden instanciar usando llaves.
zoo = {
    'corral_1': 'pingüinos',
    'corral_2': 'cebras',
    'corral_3': 'leones',
}
 # Seleccionar la clave  `corral_2`  devuelve  `cebras` , el valor almacenado en esa clave.
zoo['corral_2']

'cebras'

In [66]:
# No puedes acceder a los valores de un diccionario por nombre utilizando corchetes
# porque la computadora lo interpreta como una clave, no como un valor.
zoo['cebras']

KeyError: 'cebras'

In [68]:
# Los diccionarios también se pueden instanciar utilizando la función dict().
zoo = dict(
    pen_1='monos',
    pen_2='cebras',
    pen_3='leones',
    )
zoo['pen_2']

'cebras'

In [70]:
# Otra forma de crear un diccionario utilizando la función dict().
zoo = dict(
    [
     ['pen_1', 'monos'],
     ['pen_2', 'cebras'],
     ['pen_3', 'leones'],
    ]
)

zoo['pen_2']

'cebras'

In [71]:
# Asignar un nuevo par clave: valor a un diccionario existente.
zoo['pen_4'] = 'cocodrilos'
zoo

{'pen_1': 'monos', 'pen_2': 'cebras', 'pen_3': 'leones', 'pen_4': 'cocodrilos'}

In [72]:
# Los diccionarios no están ordenados y no admiten indexación numérica.
zoo[2]

KeyError: 2

In [73]:
# Use the `in` keyword to produce a Boolean of whether a given key exists in a dictionary.
print('pen_1' in zoo)
print('pen_7' in zoo)

True
False


<a name="6"></a>
## 6. Metodos de Diccionarios

In [79]:
# Now we have a bigger team
equipo = [
    ('Marta', 20, 'centro'),
    ('Ana', 22, 'base'),
    ('Gabi', 22, 'escolta'),
    ('Luz', 21, 'ala-pívot'),
    ('Lorena', 19, 'alero'),
    ('Sandra', 19, 'centro'),
    ('Mari', 18, 'base'),
    ('Esme', 18, 'escolta'),
    ('Lin', 18, 'ala-pívot'),
    ('Sol', 19, 'alero'),
    ]

In [80]:
# Instanciar un diccionario vacío.
new_team = {}
 # Recorrer las tuplas en la lista de jugadores y desempaquetar sus valores.
for nombre, edad, posicion in equipo:
    if posicion in new_team:                           # Si la posición ya es una clave en new_team,
        new_team[posicion].append((nombre, edad))      # agregar la tupla (nombre, edad) a la lista en ese valor.
    else:
        new_team[posicion] = [(nombre, edad)]          # Si la posición no es una clave en new_team,
                                                       # crear una nueva clave cuyo valor es una lista
                                                       # que contiene la tupla (nombre, edad).
new_team

{'centro': [('Marta', 20), ('Sandra', 19)],
 'base': [('Ana', 22), ('Mari', 18)],
 'escolta': [('Gabi', 22), ('Esme', 18)],
 'ala-pívot': [('Luz', 21), ('Lin', 18)],
 'alero': [('Lorena', 19), ('Sol', 19)]}

In [82]:
# Examinar el valor en la clave 'base'.
new_team['base']

[('Ana', 22), ('Mari', 18)]

In [83]:
# Puedes acceder a las claves de un diccionario recorriéndolas con un bucle.
for x in new_team:
    print(x)

centro
base
escolta
ala-pívot
alero


In [84]:
# El método keys() devuelve las claves de un diccionario.
new_team.keys()

dict_keys(['centro', 'base', 'escolta', 'ala-pívot', 'alero'])

In [85]:
# EL metodo values() retorna todos los valores de un  dicciónario.
new_team.values()

dict_values([[('Marta', 20), ('Sandra', 19)], [('Ana', 22), ('Mari', 18)], [('Gabi', 22), ('Esme', 18)], [('Luz', 21), ('Lin', 18)], [('Lorena', 19), ('Sol', 19)]])

In [86]:
# TEL metodo items() retorna una tupla por cada clave valor de un  dicciónario.
for clave, valor in new_team.items():
    print(clave, valor)

centro [('Marta', 20), ('Sandra', 19)]
base [('Ana', 22), ('Mari', 18)]
escolta [('Gabi', 22), ('Esme', 18)]
ala-pívot [('Luz', 21), ('Lin', 18)]
alero [('Lorena', 19), ('Sol', 19)]


<a name="7"></a>
## 7. Introducción a conjuntos

In [87]:
# La función set() convierte una lista en un conjunto.
x = set(['foo', 'bar', 'baz', 'foo'])
print(x)

{'foo', 'baz', 'bar'}


In [88]:
# La función set() convierte una tupla en un conjunto.
x = set(('foo','bar','baz', 'foo'))
print(x)

{'foo', 'baz', 'bar'}


In [89]:
# The set() function converts a string to a set.
x = set('foo')
print(x)

{'f', 'o'}


In [90]:
# Puedes usar llaves para instanciar un conjunto.
x = {'foo'}
print(type(x))
 # Pero las llaves vacías están reservadas para los diccionarios.
y = {}
print(type(y))

<class 'set'>
<class 'dict'>


In [91]:
# Al instanciar un conjunto con llaves, los contenidos se tratan como literales.
x = {'foo'}
print(x)

{'foo'}


In [92]:
# El método intersection() (&) devuelve los elementos comunes entre dos conjuntos.
conjunto1 = {1, 2, 3, 4, 5, 6}
conjunto2 = {4, 5, 6, 7, 8, 9}
print(conjunto1.intersection(conjunto2))
print(conjunto1 & conjunto2)

{4, 5, 6}
{4, 5, 6}


In [93]:
# El método union() (|) devuelve todos los elementos de dos conjuntos, cada uno representado una vez.
x1 = {'foo', 'bar', 'baz'}
x2 = {'baz', 'qux', 'quux'}
print(x1.union(x2))
print(x1 | x2)

{'qux', 'baz', 'foo', 'quux', 'bar'}
{'qux', 'baz', 'foo', 'quux', 'bar'}


In [94]:
# El método difference() (-) devuelve los elementos en set1 que no están en set2.
conjunto1 = {1, 2, 3, 4, 5, 6}
conjunto2 = {4, 5, 6, 7, 8, 9}
print(conjunto1.difference(conjunto2))
print(conjunto1 - conjunto2)

{1, 2, 3}
{1, 2, 3}


In [None]:
# ... y los elementos en set2 que no están en set1.
print(set2.difference(set1))
print(set2 - set1)

In [95]:
# El método symmetric_difference() (^) devuelve todos los valores de cada conjunto que no están en ambos conjuntos.
conjunto1 = {1, 2, 3, 4, 5, 6}
conjunto2 = {4, 5, 6, 7, 8, 9}
conjunto2.symmetric_difference(conjunto1)
conjunto2 ^ conjunto1

{1, 2, 3, 7, 8, 9}

<a name="8"></a>
## 8. Introducción a NumPy

In [101]:
# Las listas no se pueden multiplicar entre sí.
list_a = [1, 2, 3]
list_b = [2, 4, 6]

list_a * list_b

TypeError: can't multiply sequence by non-int of type 'list'

In [102]:
# Para realizar una multiplicación elemento a elemento entre dos listas, podrías
# usar un bucle for.
list_c = []
for i in range(len(list_a)):
    list_c.append(list_a[i] * list_b[i])

list_c

[2, 8, 18]

#### Los arreglos de NumPy te permiten realizar operaciones con vectores.

In [100]:
import numpy as np # es la manera que se tomo como estandar de importar numpy

In [103]:
# Convertir listas en arreglos.
arreglo_a = np.array(list_a)
arreglo_b = np.array(list_b)
 # Realizar multiplicación elemento a elemento entre los arreglos.
arreglo_a * arreglo_b

array([ 2,  8, 18])

<a name="9"></a>
## 9. Operaciones Basicas de vectores

In [105]:
import numpy as np


In [119]:

# La función np.array() convierte un objeto en un ndarray
x = np.array([1, 2, 3, 4])
x

array([1, 2, 3, 4])

In [120]:
x[0]

1

In [121]:
# los Arrays son indexados.
x[0] = -5
x

array([-5,  2,  3,  4])

In [123]:
# Si intentas acceder a un indice que no existe genera un error del tipo IndexError
x[4] = 10

IndexError: index 4 is out of bounds for axis 0 with size 4

In [124]:
# Los arrays convierten cada elemento que contienen en el mismo tipo de dato.
arr = np.array([1, 2, 'coconut'])
arr

array(['1', '2', 'coconut'], dtype='<U21')

In [125]:
# Los arrays de NumPy son una clase llamada  `ndarray` .
print(type(arr))

<class 'numpy.ndarray'>


In [126]:
# El atributo dtype devuelve el tipo de datos de los contenidos de un array.
arr = np.array([1, 2, 3])
arr.dtype

dtype('int64')

In [127]:
np.dtype?

[0;31mInit signature:[0m [0mnp[0m[0;34m.[0m[0mdtype[0m[0;34m([0m[0mself[0m[0;34m,[0m [0;34m/[0m[0;34m,[0m [0;34m*[0m[0margs[0m[0;34m,[0m [0;34m**[0m[0mkwargs[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m     
dtype(dtype, align=False, copy=False)

Create a data type object.

A numpy array is homogeneous, and contains elements described by a
dtype object. A dtype object can be constructed from different
combinations of fundamental numeric types.

Parameters
----------
dtype
    Object to be converted to a data type object.
align : bool, optional
    Add padding to the fields to match what a C compiler would output
    for a similar C-struct. Can be ``True`` only if `obj` is a dictionary
    or a comma-separated string. If a struct dtype is being created,
    this also sets a sticky alignment flag ``isalignedstruct``.
copy : bool, optional
    Make a new copy of the data-type object. If ``False``, the result
    may just be a reference to a bu

In [128]:
# El atributo shape devuelve el número de elementos en cada dimensión de un array.
arr.shape

(3,)

In [129]:
# El atributo ndim devuelve el número de dimensiones en un array.
arr.ndim

1

In [130]:
# Crea una matriz 2D pasando una lista de listas a la función np.array().
arr_2d = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
print(arr_2d.shape)
print(arr_2d.ndim)
arr_2d

(4, 2)
2


array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [134]:
arr_3d = np.array([
                  [
                   [1, 2, 3],
                   [3, 4, 5]
                   ],
                  [
                   [5, 6, 7],
                   [7, 8, 9]
                   ]
                   ]
)

print("La dimenciones del array: ",arr_3d.ndim)
print("La forma del array: ",arr_3d.shape)

arr_3d

La dimenciones del array:  3
La forma del array:  (2, 2, 3)


array([[[1, 2, 3],
        [3, 4, 5]],

       [[5, 6, 7],
        [7, 8, 9]]])

In [135]:
# El método reshape() cambia la forma de un arreglo.
arr_2d = arr_2d.reshape(2, 4)
arr_2d

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [136]:
# Crear un nuevo arreglo

arr = np.array([1, 2, 3, 4, 5])

# El método mean() devuelve la media de los elementos en un arreglo.

np.mean(arr)

3.0

In [137]:
# El método log() devuelve el logaritmo natural de los elementos en un arreglo.
np.log(arr)

array([0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791])

In [138]:
# El método floor() devuelve el valor de un número redondeado hacia abajo al entero más cercano.
np.floor(5.7)

5.0

In [139]:
# El método floor() devuelve el valor de un número redondeado hacia arriba al entero más cercano.
np.ceil(5.3)

6.0

<a name="10"></a>
## 10. Introducción a pandas

In [140]:
# NumPy y pandas generalmente se importan juntos.
# np y pd son alias convencionales.
import numpy as np
import pandas as pd


In [141]:
# Leemos un archivo CSV un archivo de datos valores separados por coma
dataframe = pd.read_csv('train.csv')

# mostramos los primeros 25 campos
dataframe.head(25)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [143]:
# Calcula la media de la columna "Edad".
dataframe['Age'].mean()

29.69911764705882

In [144]:
# Calcula el maximo valor contenido en la columna Age.
dataframe['Age'].max()

80.0

In [145]:
# Calcula el minimo valor contenido en la columna Age.
dataframe['Age'].min()

0.42

In [146]:
# Calculala la desviacion standard de los valores en la comulna Age.
dataframe['Age'].std()

14.526497332334042

In [147]:
# Devuelve el número de filas que comparten el mismo valor en la columna "Pclass".
dataframe['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [148]:
# The describe() method returns summary statistics of the dataframe.
dataframe.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [150]:
# Filtrar los datos para devolver solo las filas donde el valor en la columna "Age" sea mayor que 60
# y el valor en la columna "Pclass" sea igual a 3.
dataframe_filtrado = dataframe[(dataframe['Age'] > 60) & (dataframe['Pclass'] == 3)]
dataframe_filtrado

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
280,281,0,3,"Duane, Mr. Frank",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr. Johan Hansen",male,61.0,0,0,345364,6.2375,,S
483,484,1,3,"Turkula, Mrs. (Hedwig)",female,63.0,0,0,4134,9.5875,,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S


In [151]:
# Crea una nueva columna llamada "2023_Fare" que contenga la tarifa ajustada por inflación de cada boleto 
# en libras esterlinas de 2023.
dataframe['2023_Fare'] = dataframe['Fare'] * 146.14
dataframe

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,2023_Fare
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,1059.515000
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,10417.341462
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,1158.159500
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,7760.034000
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,1176.427000
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,1899.820000
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,4384.200000
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,3426.983000
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,4384.200000


In [153]:
# Usa iloc para acceder a los datos utilizando números de índice.
# Selecciona la fila 1, columna 3.
dataframe.iloc[1][3]

'Cumings, Mrs. John Bradley (Florence Briggs Thayer)'

In [155]:
# Group customers by Sex and Pclass and calculate the total paid for each group
# and the mean price paid for each group.
fare = dataframe.groupby(['Sex', 'Pclass']).agg({'Fare': ['count', 'sum']})
fare

Unnamed: 0_level_0,Unnamed: 1_level_0,Fare,Fare
Unnamed: 0_level_1,Unnamed: 1_level_1,count,sum
Sex,Pclass,Unnamed: 2_level_2,Unnamed: 3_level_2
female,1,94,9975.825
female,2,76,1669.7292
female,3,144,2321.1086
male,1,122,8201.5875
male,2,108,2132.1125
male,3,347,4393.5865


In [156]:

fare['fare_avg'] = fare['Fare']['sum'] / fare['Fare']['count']

fare

Unnamed: 0_level_0,Unnamed: 1_level_0,Fare,Fare,fare_avg
Unnamed: 0_level_1,Unnamed: 1_level_1,count,sum,Unnamed: 4_level_1
Sex,Pclass,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
female,1,94,9975.825,106.125798
female,2,76,1669.7292,21.970121
female,3,144,2321.1086,16.11881
male,1,122,8201.5875,67.226127
male,2,108,2132.1125,19.741782
male,3,347,4393.5865,12.661633


<a name="11"></a>
## 11. Pandas basico

In [157]:
import pandas as pd

# Usamos pd.DataFrame() para crear un dataframe desde un diccionario de python.
data = {'col1': [1, 2], 
        'col2': [3, 4]}
df = pd.DataFrame(data=data)
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [158]:
# Crear un dataframe desde un array de NumPy.
df2 = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]),
                   columns=['a', 'b', 'c'], index=['x', 'y', 'z'])
df2

Unnamed: 0,a,b,c
x,1,2,3
y,4,5,6
z,7,8,9


In [159]:
# Usamos pd.read_csv() para crear un dataframe desde un archivo .csv.
# desde una URL o un archivo local.
df3 = pd.read_csv('train.csv')
df3.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [161]:
# vemos que clase es la primera fila
print(type(df3.iloc[0]))

# vemos que clase es la columna Name
print(type(df3['Name']))

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


In [163]:
# Crear una copia de df3 y lo llamamos 'titanic'.
titanic = df3.copy()

# El metodo head() muestra los primeros n valores del dataframe 5 es el valor predeterminado.
titanic.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [164]:
# El metodo tail() muestra los ultimos n valores del dataframe 5 es el valor predeterminado.
titanic.tail(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [165]:
# El metodo sample()) muestra n valores al azar del dataframe 5 es el valor predeterminado.
titanic.sample(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
62,63,0,1,"Harris, Mr. Henry Birkhardt",male,45.0,1,0,36973,83.475,C83,S
470,471,0,3,"Keefe, Mr. Arthur",male,,0,0,323592,7.25,,S
279,280,1,3,"Abbott, Mrs. Stanton (Rosa Hunt)",female,35.0,1,1,C.A. 2673,20.25,,S
489,490,1,3,"Coutts, Master. Eden Leslie ""Neville""",male,9.0,1,1,C.A. 37671,15.9,,S
158,159,0,3,"Smiljanic, Mr. Mile",male,,0,0,315037,8.6625,,S
757,758,0,2,"Bailey, Mr. Percy Andrew",male,18.0,0,0,29108,11.5,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
612,613,1,3,"Murphy, Miss. Margaret Jane",female,,1,0,367230,15.5,,Q
560,561,0,3,"Morrow, Mr. Thomas Rowan",male,,0,0,372622,7.75,,Q


In [167]:
# El atributo columns devuelve la lista de columnas del dataframe.
titanic.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [168]:
# El atributo shape devuelve la forma del dataframe (filas, columnas).
titanic.shape

(891, 12)

In [169]:
# El método info() devuelve información resumida sobre el dataframe.
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [171]:
# Puedes seleccionar una columna por su nombre usando corchetes.
titanic['Age']

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

In [170]:
# Puedes seleccionar una columna por su nombre usando la notación de punto
# solo cuando su nombre no contiene espacios ni caracteres especiales.
titanic.Age

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

In [172]:
# Puedes seleccionar una columna por su nombre usando la notación de punto
# solo cuando su nombre no contiene espacios ni caracteres especiales.
titanic[['Name', 'Age']]

Unnamed: 0,Name,Age
0,"Braund, Mr. Owen Harris",22.0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0
2,"Heikkinen, Miss. Laina",26.0
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0
4,"Allen, Mr. William Henry",35.0
...,...,...
886,"Montvila, Rev. Juozas",27.0
887,"Graham, Miss. Margaret Edith",19.0
888,"Johnston, Miss. Catherine Helen ""Carrie""",
889,"Behr, Mr. Karl Howell",26.0


In [175]:
# Utiliza iloc para devolver un objeto Series de los datos en la fila 0.
titanic.iloc[0]

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                               22.0
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

In [176]:
# Utiliza iloc para devolver una vista del DataFrame de los datos en la fila 0.
titanic.iloc[[0]]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S


In [177]:
# Utiliza iloc para devolver una vista del DataFrame de los datos en las filas 0, 1, 2.
titanic.iloc[0:3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [178]:
# Utiliza iloc para devolver una vista del DataFrame de las filas 0 a 2 en las columnas 3 y 4.
titanic.iloc[0:3, [3, 4]]

Unnamed: 0,Name,Sex
0,"Braund, Mr. Owen Harris",male
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
2,"Heikkinen, Miss. Laina",female


In [179]:
# Utiliza iloc para devolver una vista del DataFrame de todas las filas en la columna 3.
titanic.iloc[:, [3]]

Unnamed: 0,Name
0,"Braund, Mr. Owen Harris"
1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
2,"Heikkinen, Miss. Laina"
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
4,"Allen, Mr. William Henry"
...,...
886,"Montvila, Rev. Juozas"
887,"Graham, Miss. Margaret Edith"
888,"Johnston, Miss. Catherine Helen ""Carrie"""
889,"Behr, Mr. Karl Howell"


In [180]:
# Utiliza iloc para acceder al valor en la fila 0, columna 3.
titanic.iloc[0, 3]

'Braund, Mr. Owen Harris'

In [181]:
# Utiliza loc para acceder a los valores en las filas 0-3 solo en la columna "Nombre".
titanic.loc[0:3, ['Name']]

Unnamed: 0,Name
0,"Braund, Mr. Owen Harris"
1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
2,"Heikkinen, Miss. Laina"
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"


In [182]:
# Crea una nueva columna en el dataframe que contenga el valor de la columna "Edad" + 100.
titanic['Age_plus_100'] = titanic['Age'] + 100
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_plus_100
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,122.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,138.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,126.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,135.0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,135.0


<a name="12"></a>
## 12. Mascaras Booleanas

In [184]:
# Instancia un diccionario con datos planetarios.
data = {'planet': ['Mercury', 'Venus', 'Earth', 'Mars',
                   'Jupiter', 'Saturn', 'Uranus', 'Neptune'],
       'radius_km': [2440, 6052, 6371, 3390, 69911, 58232,
                     25362, 24622],
       'moons': [0, 0, 1, 2, 80, 83, 27, 14]
        }
# Utiliza la función pd.DataFrame() para convertir un diccionario en un dataframe.
planets = pd.DataFrame(data)
planets

Unnamed: 0,planet,radius_km,moons
0,Mercury,2440,0
1,Venus,6052,0
2,Earth,6371,1
3,Mars,3390,2
4,Jupiter,69911,80
5,Saturn,58232,83
6,Uranus,25362,27
7,Neptune,24622,14


In [186]:
# Crea una máscara booleana de planetas con menos de 20 lunas.
mask = planets['moons'] < 20
mask

0     True
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: moons, dtype: bool

In [187]:
# Aplica la máscara booleana al dataframe para filtrarlo y que contenga solo los planetas con menos de 20 lunas.
planets[mask]

Unnamed: 0,planet,radius_km,moons
0,Mercury,2440,0
1,Venus,6052,0
2,Earth,6371,1
3,Mars,3390,2
7,Neptune,24622,14


In [188]:
# Define la máscara booleana y aplícala en una sola línea.
planets[planets['moons'] < 20]

Unnamed: 0,planet,radius_km,moons
0,Mercury,2440,0
1,Venus,6052,0
2,Earth,6371,1
3,Mars,3390,2
7,Neptune,24622,14


In [189]:
# Las máscaras booleanas no cambian los datos. Solo son vistas.
planets

Unnamed: 0,planet,radius_km,moons
0,Mercury,2440,0
1,Venus,6052,0
2,Earth,6371,1
3,Mars,3390,2
4,Jupiter,69911,80
5,Saturn,58232,83
6,Uranus,25362,27
7,Neptune,24622,14


In [190]:
# Puedes asignar una vista de un dataframe a una variable con nombre.
moons_under_20 = planets[mask]
moons_under_20

Unnamed: 0,planet,radius_km,moons
0,Mercury,2440,0
1,Venus,6052,0
2,Earth,6371,1
3,Mars,3390,2
7,Neptune,24622,14


In [195]:
# Crea una máscara booleana de planetas con menos de 10 lunas O más de 50 lunas.
mask = (planets['moons'] < 10) | (planets['moons'] > 50)
mask

0     True
1     True
2     True
3     True
4     True
5     True
6    False
7    False
Name: moons, dtype: bool

In [196]:
# Aplica la máscara booleana para filtrar los datos.
planets[mask]

Unnamed: 0,planet,radius_km,moons
0,Mercury,2440,0
1,Venus,6052,0
2,Earth,6371,1
3,Mars,3390,2
4,Jupiter,69911,80
5,Saturn,58232,83


In [211]:
~(planets['radius_km'] < 50000)

0    False
1    False
2    False
3    False
4     True
5     True
6    False
7    False
Name: radius_km, dtype: bool

In [214]:
# Crea una máscara booleana de planetas con más de 20 lunas, 
# excluyéndolos si tienen 80 lunas o si su radio es menor a 50,000 km.
mask = (planets['moons'] > 20) & ~(planets['moons'] == 80) & ~(planets['radius_km'] < 50000)

# Apply the mask
planets[mask]

Unnamed: 0,planet,radius_km,moons
5,Saturn,58232,83


In [212]:
(planets['radius_km'] < 50000)

0     True
1     True
2     True
3     True
4    False
5    False
6     True
7     True
Name: radius_km, dtype: bool

In [213]:
~(planets['radius_km'] < 50000)

0    False
1    False
2    False
3    False
4     True
5     True
6    False
7    False
Name: radius_km, dtype: bool

<a name="13"></a>
## 13. Agrupacion y agregación

In [1]:
import numpy as np
import pandas as pd

data = {'planet': ['Mercury', 'Venus', 'Earth', 'Mars',
                   'Jupiter', 'Saturn', 'Uranus', 'Neptune'],
        'radius_km': [2440, 6052, 6371, 3390, 69911, 58232,
                     25362, 24622],
        'moons': [0, 0, 1, 2, 80, 83, 27, 14],
        'type': ['terrestrial', 'terrestrial', 'terrestrial', 'terrestrial',
                 'gas giant', 'gas giant', 'ice giant', 'ice giant'],
        'rings': ['no', 'no', 'no', 'no', 'yes', 'yes', 'yes','yes'],
        'mean_temp_c': [167, 464, 15, -65, -110, -140, -195, -200],
        'magnetic_field': ['yes', 'no', 'yes', 'no', 'yes', 'yes', 'yes', 'yes']
        }


planets = pd.DataFrame(data)
planets

Unnamed: 0,planet,radius_km,moons,type,rings,mean_temp_c,magnetic_field
0,Mercury,2440,0,terrestrial,no,167,yes
1,Venus,6052,0,terrestrial,no,464,no
2,Earth,6371,1,terrestrial,no,15,yes
3,Mars,3390,2,terrestrial,no,-65,no
4,Jupiter,69911,80,gas giant,yes,-110,yes
5,Saturn,58232,83,gas giant,yes,-140,yes
6,Uranus,25362,27,ice giant,yes,-195,yes
7,Neptune,24622,14,ice giant,yes,-200,yes


In [2]:
# The groupby() function returns a groupby object.
planets.groupby(['type'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f44c0436ac0>

In [3]:
# Aplica la función sum() al objeto groupby para obtener la suma de los valores 
# en cada columna numérica para cada grupo.
planets.groupby(['type']).sum(numeric_only=True)

Unnamed: 0_level_0,radius_km,moons,mean_temp_c
type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
gas giant,128143,163,-250
ice giant,49984,41,-395
terrestrial,18253,3,581


In [4]:
 # Aplica la función sum al objeto groupby y selecciona solo la columna 'moons'.
planets.groupby(['type']).sum(numeric_only=True)[['moons']]

Unnamed: 0_level_0,moons
type,Unnamed: 1_level_1
gas giant,163
ice giant,41
terrestrial,3


In [6]:
# Agrupar por tipo y campo_magnetico y obtener la media de los valores
# en las columnas numéricas para cada grupo.
planets.groupby(['type', 'magnetic_field']).mean(numeric_only=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,radius_km,moons,mean_temp_c
type,magnetic_field,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
gas giant,yes,64071.5,81.5,-125.0
ice giant,yes,24992.0,20.5,-197.5
terrestrial,no,4721.0,1.0,199.5
terrestrial,yes,4405.5,0.5,91.0


In [7]:
# Agrupar por tipo, luego utilizar la función agg() para obtener la media y la mediana
# de los valores en las columnas numéricas para cada grupo.
planets.groupby(['type']).agg(['mean', 'median'],numeric_only=True)

  planets.groupby(['type']).agg(['mean', 'median'],numeric_only=True)


Unnamed: 0_level_0,radius_km,radius_km,moons,moons,mean_temp_c,mean_temp_c
Unnamed: 0_level_1,mean,median,mean,median,mean,median
type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
gas giant,64071.5,64071.5,81.5,81.5,-125.0,-125.0
ice giant,24992.0,24992.0,20.5,20.5,-197.5,-197.5
terrestrial,4563.25,4721.0,0.75,0.5,145.25,91.0


In [10]:
planetas = planets.drop(['planet', 'rings', 'magnetic_field'], axis=1)
planetas.groupby(['type']).agg(['mean', 'median'])

Unnamed: 0_level_0,radius_km,radius_km,moons,moons,mean_temp_c,mean_temp_c
Unnamed: 0_level_1,mean,median,mean,median,mean,median
type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
gas giant,64071.5,64071.5,81.5,81.5,-125.0,-125.0
ice giant,24992.0,24992.0,20.5,20.5,-197.5,-197.5
terrestrial,4563.25,4721.0,0.75,0.5,145.25,91.0


In [12]:
# Agrupar por tipo y campo_magnetico, luego usar la función agg() para obtener
# la media y el máximo de los valores en las columnas numéricas para cada grupo.
planets.groupby(['type', 'magnetic_field']).agg(['mean', 'max'])

  planets.groupby(['type', 'magnetic_field']).agg(['mean', 'max'])


Unnamed: 0_level_0,Unnamed: 1_level_0,radius_km,radius_km,moons,moons,mean_temp_c,mean_temp_c
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,max,mean,max,mean,max
type,magnetic_field,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
gas giant,yes,64071.5,69911,81.5,83,-125.0,-110
ice giant,yes,24992.0,25362,20.5,27,-197.5,-195
terrestrial,no,4721.0,6052,1.0,2,199.5,464
terrestrial,yes,4405.5,6371,0.5,1,91.0,167


In [14]:
planetas_2 = planets.drop(['planet', 'rings',], axis=1)
planetas_2.groupby(["type","magnetic_field"]).agg(["mean","max"])

Unnamed: 0_level_0,Unnamed: 1_level_0,radius_km,radius_km,moons,moons,mean_temp_c,mean_temp_c
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,max,mean,max,mean,max
type,magnetic_field,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
gas giant,yes,64071.5,69911,81.5,83,-125.0,-110
ice giant,yes,24992.0,25362,20.5,27,-197.5,-195
terrestrial,no,4721.0,6052,1.0,2,199.5,464
terrestrial,yes,4405.5,6371,0.5,1,91.0,167


In [15]:
# Define a function that returns the 90 percentile of an array.
def percentile_90(x):
    return x.quantile(0.9)

In [16]:
# Agrupar por tipo y campo_magnetico, luego usar la función agg() para aplicar la
# media y la función  `percentile_90()`  definida por el usuario a las columnas numéricas
# para cada grupo.
planets.groupby(['type', 'magnetic_field']).agg(['mean', percentile_90])

  planets.groupby(['type', 'magnetic_field']).agg(['mean', percentile_90])


Unnamed: 0_level_0,Unnamed: 1_level_0,radius_km,radius_km,moons,moons,mean_temp_c,mean_temp_c
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,percentile_90,mean,percentile_90,mean,percentile_90
type,magnetic_field,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
gas giant,yes,64071.5,68743.1,81.5,82.7,-125.0,-113.0
ice giant,yes,24992.0,25288.0,20.5,25.7,-197.5,-195.5
terrestrial,no,4721.0,5785.8,1.0,1.8,199.5,411.1
terrestrial,yes,4405.5,5977.9,0.5,0.9,91.0,151.8


In [17]:
planetas_2.groupby(['type', 'magnetic_field']).agg(['mean', percentile_90])

Unnamed: 0_level_0,Unnamed: 1_level_0,radius_km,radius_km,moons,moons,mean_temp_c,mean_temp_c
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,percentile_90,mean,percentile_90,mean,percentile_90
type,magnetic_field,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
gas giant,yes,64071.5,68743.1,81.5,82.7,-125.0,-113.0
ice giant,yes,24992.0,25288.0,20.5,25.7,-197.5,-195.5
terrestrial,no,4721.0,5785.8,1.0,1.8,199.5,411.1
terrestrial,yes,4405.5,5977.9,0.5,0.9,91.0,151.8


<a name="14"></a>
## 14. Uniendo y fusionando datos

In [18]:
import numpy as np
import pandas as pd

data = {'planet': ['Mercury', 'Venus', 'Earth', 'Mars'],
        'radius_km': [2440, 6052, 6371, 3390],
        'moons': [0, 0, 1, 2],
        }

df1 = pd.DataFrame(data)
df1

Unnamed: 0,planet,radius_km,moons
0,Mercury,2440,0
1,Venus,6052,0
2,Earth,6371,1
3,Mars,3390,2


In [19]:

data = {'planet': ['Jupiter', 'Saturn', 'Uranus', 'Neptune'],
        'radius_km': [69911, 58232, 25362, 24622],
        'moons': [80, 83, 27, 14],
        }

df2 = pd.DataFrame(data)
df2

Unnamed: 0,planet,radius_km,moons
0,Jupiter,69911,80
1,Saturn,58232,83
2,Uranus,25362,27
3,Neptune,24622,14


In [21]:
# La función pd.concat() puede combinar los dos dataframes a lo largo del eje 0,
# con el segundo dataframe agregándose como nuevas filas al primer dataframe.
df3 = pd.concat([df1, df2], axis=0)
df3

Unnamed: 0,planet,radius_km,moons
0,Mercury,2440,0
1,Venus,6052,0
2,Earth,6371,1
3,Mars,3390,2
0,Jupiter,69911,80
1,Saturn,58232,83
2,Uranus,25362,27
3,Neptune,24622,14


In [24]:
df3_axis_1 = pd.concat([df1, df2], axis = 1)
df3_axis_1

Unnamed: 0,planet,radius_km,moons,planet.1,radius_km.1,moons.1
0,Mercury,2440,0,Jupiter,69911,80
1,Venus,6052,0,Saturn,58232,83
2,Earth,6371,1,Uranus,25362,27
3,Mars,3390,2,Neptune,24622,14


In [25]:
# Resetea los indices de las filas.
df3 = df3.reset_index(drop=True)
df3

Unnamed: 0,planet,radius_km,moons
0,Mercury,2440,0
1,Venus,6052,0
2,Earth,6371,1
3,Mars,3390,2
4,Jupiter,69911,80
5,Saturn,58232,83
6,Uranus,25362,27
7,Neptune,24622,14


In [26]:
# NOTE: THIS CELL WAS NOT SHOWN IN THE INSTRUCTIONAL VIDEO BUT WAS RUN AS A
#       SETUP CELL.
data = {'planet': ['Earth', 'Mars','Jupiter', 'Saturn', 'Uranus',
                   'Neptune', 'Janssen', 'Tadmor'],
        'type': ['terrestrial', 'terrestrial','gas giant', 'gas giant',
                 'ice giant', 'ice giant', 'super earth','gas giant'],
        'rings': ['no', 'no', 'yes', 'yes', 'yes','yes', 'no', None],
        'mean_temp_c': [15, -65, -110, -140, -195, -200, None, None],
        'magnetic_field': ['yes', 'no', 'yes', 'yes', 'yes', 'yes', None, None],
        'life': [1, 0, 0, 0, 0, 0, 1, 1]
        }
df4 = pd.DataFrame(data)

In [27]:
df4

Unnamed: 0,planet,type,rings,mean_temp_c,magnetic_field,life
0,Earth,terrestrial,no,15.0,yes,1
1,Mars,terrestrial,no,-65.0,no,0
2,Jupiter,gas giant,yes,-110.0,yes,0
3,Saturn,gas giant,yes,-140.0,yes,0
4,Uranus,ice giant,yes,-195.0,yes,0
5,Neptune,ice giant,yes,-200.0,yes,0
6,Janssen,super earth,no,,,1
7,Tadmor,gas giant,,,,1


In [29]:
# Usa pd.merge() para combinar dataframes.
# La fusión interna retiene solo las claves que aparecen en ambos dataframes.
inner = pd.merge(df3, df4, on='planet', how='inner')
inner

Unnamed: 0,planet,radius_km,moons,type,rings,mean_temp_c,magnetic_field,life
0,Earth,6371,1,terrestrial,no,15.0,yes,1
1,Mars,3390,2,terrestrial,no,-65.0,no,0
2,Jupiter,69911,80,gas giant,yes,-110.0,yes,0
3,Saturn,58232,83,gas giant,yes,-140.0,yes,0
4,Uranus,25362,27,ice giant,yes,-195.0,yes,0
5,Neptune,24622,14,ice giant,yes,-200.0,yes,0


In [30]:
# Usa pd.merge() para combinar dataframes.
# La fusión externa conserva todas las claves de ambos dataframes.
outer = pd.merge(df3, df4, on='planet', how='outer')
outer

Unnamed: 0,planet,radius_km,moons,type,rings,mean_temp_c,magnetic_field,life
0,Mercury,2440.0,0.0,,,,,
1,Venus,6052.0,0.0,,,,,
2,Earth,6371.0,1.0,terrestrial,no,15.0,yes,1.0
3,Mars,3390.0,2.0,terrestrial,no,-65.0,no,0.0
4,Jupiter,69911.0,80.0,gas giant,yes,-110.0,yes,0.0
5,Saturn,58232.0,83.0,gas giant,yes,-140.0,yes,0.0
6,Uranus,25362.0,27.0,ice giant,yes,-195.0,yes,0.0
7,Neptune,24622.0,14.0,ice giant,yes,-200.0,yes,0.0
8,Janssen,,,super earth,no,,,1.0
9,Tadmor,,,gas giant,,,,1.0


In [31]:
# Usa pd.merge() para combinar dataframes.
# La fusión izquierda conserva solo las claves que aparecen en el dataframe izquierdo.
left = pd.merge(df3, df4, on='planet', how='left')
left

Unnamed: 0,planet,radius_km,moons,type,rings,mean_temp_c,magnetic_field,life
0,Mercury,2440,0,,,,,
1,Venus,6052,0,,,,,
2,Earth,6371,1,terrestrial,no,15.0,yes,1.0
3,Mars,3390,2,terrestrial,no,-65.0,no,0.0
4,Jupiter,69911,80,gas giant,yes,-110.0,yes,0.0
5,Saturn,58232,83,gas giant,yes,-140.0,yes,0.0
6,Uranus,25362,27,ice giant,yes,-195.0,yes,0.0
7,Neptune,24622,14,ice giant,yes,-200.0,yes,0.0


In [32]:
# Usa pd.merge() para combinar dataframes.
# La fusión derecha conserva solo las claves que aparecen en el dataframe derecho.
right = pd.merge(df3, df4, on='planet', how='right')
right

Unnamed: 0,planet,radius_km,moons,type,rings,mean_temp_c,magnetic_field,life
0,Earth,6371.0,1.0,terrestrial,no,15.0,yes,1
1,Mars,3390.0,2.0,terrestrial,no,-65.0,no,0
2,Jupiter,69911.0,80.0,gas giant,yes,-110.0,yes,0
3,Saturn,58232.0,83.0,gas giant,yes,-140.0,yes,0
4,Uranus,25362.0,27.0,ice giant,yes,-195.0,yes,0
5,Neptune,24622.0,14.0,ice giant,yes,-200.0,yes,0
6,Janssen,,,super earth,no,,,1
7,Tadmor,,,gas giant,,,,1
