## LIBRERÍA

In [None]:
import pandas as pd

## CREANDO SERIES

In [None]:
## Se pueden crear series a partir de arreglos, como las listas
## Cuando se crea una serie, pandas inmediatamente crea índices empezando desde cero
## También configura el nombre como None, veamos:

## Hagamos una lista de profesores
profes = ["Keith", "Juan", "Victor", "Jorge"]

## Ahora vamos a crear una serie mediante la función pd.Series()
serie_profes = pd.Series(profes)
serie_profes

0     Keith
1      Juan
2    Victor
3     Jorge
dtype: object

In [None]:
## Ahora, asignemos un nombre a la serie ;)
serie_profes.name = "los_profes"
serie_profes.name

'los_profes'

In [None]:
serie_profes

0     Keith
1      Juan
2    Victor
3     Jorge
Name: los_profes, dtype: object

In [None]:
## Intentemos con números
numeritos = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

serie_numeritos = pd.Series(numeritos)
serie_numeritos

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
dtype: int64

In [None]:
## Cuando insertamos un valor None dentro de un arreglo de caracteres
## pandas automáticamente utilizará el tipo de dato del que está conformado
## el resto de elementos del arreglo

estudiantes = ["Sandy", "Julio", "Erick", None]

pd.Series(estudiantes)

0    Sandy
1    Julio
2    Erick
3     None
dtype: object

In [None]:
## Cuando insertamos un valor None dentro de un arreglo de números
## pandas automáticamente utilizará el tipo de dato del que está conformado
## el resto de elementos del arreglo, en este caso lo volverá en un valor
## especial de punto flotante, en este caso NaN

numeritos_con_none = [1, 2, 3, 4, None]

pd.Series(numeritos_con_none)

0    1.0
1    2.0
2    3.0
3    4.0
4    NaN
dtype: float64

In [None]:
## Importamos la librería numpy para generar un valor NaN (Not a Number)
import numpy as np

## Comparamos NaN vs None
np.nan == None

False

In [None]:
## Comparemos NaN vs NaN
np.nan == np.nan

False

In [None]:
## Verifiquemos si un datos es NaN con numpy
np.isnan(np.nan)

True

In [None]:
## Verifiquemos si un datos es NaN con pandas
pd.isna(np.nan)

True

In [None]:
## Las series también pueden ser creadas a partir de diccionarios
## En este caso la llave del diccionario será el índice de la serie
## y el valor (value) del diccionario será el dato real

diccionario_articulos = {"Ropa" : "Polo",
                         "Gadget" : "Smartphone",
                         "Electrodoméstico" : "Microondas"}

serie_articulos = pd.Series(diccionario_articulos)
serie_articulos

Ropa                      Polo
Gadget              Smartphone
Electrodoméstico    Microondas
dtype: object

In [None]:
serie_articulos.index

Index(['Ropa', 'Gadget', 'Electrodoméstico'], dtype='object')

In [None]:
## Object no es el único tipo de dato para caracteres, sino también para otro tipo de objetos arbitrarios
## Veamos con una lista de tuplas
estudiantes = [("Diana", "Verde"), ("Carlos", "Marrón"), ("Ana", "Rojo")]
pd.Series(estudiantes)

0      (Diana, Verde)
1    (Carlos, Marrón)
2         (Ana, Rojo)
dtype: object

In [None]:
## También puedes pasar índices por separado dentro de la función pd.Series()
## Intentemos en el siguiente ejemplo
cosas = pd.Series(["PlayStation", "Pelota de Voley", "Laptop"],
                  index = ["Peter Parker", "Shakira", "Batman"])

cosas

Peter Parker        PlayStation
Shakira         Pelota de Voley
Batman                   Laptop
dtype: object

In [None]:
## Cuando creas una serie a partir de un diccionario
## y colocas índices diferentes a las llaves del diccionario
## pandas va a priorizar los índices de la función pd.Series()
## y aquellos valores cuyos índices no coincidan con las llaves del diccionario
## se volverán NaN

cursos_estudiantes = {"Pepe Grillo" : "Estadística",
                      "Blancanieves" : "Física Cuántica",
                      "Obi-Wan" : "Ciencia de Datos"}
serie = pd.Series(cursos_estudiantes, index = ["Obi-Wan", "Pepe Grillo", "Steven"])
serie

Obi-Wan        Ciencia de Datos
Pepe Grillo         Estadística
Steven                      NaN
dtype: object

## CONSULTA DE SERIES

In [None]:
## Una serie de pandas se puede consultar mediante la posición del índice o la etiqueta del índice.
cursos_estudiantes_2 = {"Optimus" : "Mecánica",
                        "Shakira" : "Música",
                        "Bill Gates" : "Programación",
                        "Flash" : "Educación Física"}
serie_cursos_estudiantes_2 = pd.Series(cursos_estudiantes_2)
serie_cursos_estudiantes_2

Optimus               Mecánica
Shakira                 Música
Bill Gates        Programación
Flash         Educación Física
dtype: object

In [None]:
## iloc es un atributo que nos permite ubicar con un número
## la posición del índice del registro que queramos encontrar
## En este caso buscaremos el cuarto registro,
## para esto ingresamos el parámetro 3
serie_cursos_estudiantes_2.iloc[3]

'Educación Física'

In [None]:
## pandas te lo deja fácil, también es posible realizar sin iloc
serie_cursos_estudiantes_2[3]

'Educación Física'

In [None]:
## loc es un atributo que nos permite ubicar con la etiqueta del índice
## el registro al que le pertenece
## Supongamos que queremos saber a qué curso tiene asignado Shakira
serie_cursos_estudiantes_2.loc["Shakira"]

'Música'

In [None]:
## pandas te lo deja fácil, también es posible realizar sin loc
serie_cursos_estudiantes_2["Shakira"]

'Música'

In [None]:
## Hay que ser cuidadosos en el caso de que los índices provengan de una
## lista de valores enteros debido a que pandas no puede determinar
## automáticamente si quieres hacer consulta por posición o etiqueta de índice
## La opción más segura es usando loc e iloc
codigo_clase = {99 : "Física",
                100 : "Química",
                101 : "Inglés",
                102 : "Historia"}

series_codigo_clase = pd.Series(codigo_clase)
series_codigo_clase

99       Física
100     Química
101      Inglés
102    Historia
dtype: object

In [None]:
series_codigo_clase[0]

KeyError: 0

In [None]:
series_codigo_clase.iloc[0]

'Física'

In [None]:
## Ahora veamos cómo podemos trabajar con los datos para
## poder encontrar un número, esto pude conllevar
## o bien un paso o varios pasos (transformaciones)

In [None]:
## Obteniendo promedio con series y python puro
serie_num_clientes = pd.Series([90, 80, 70, 60])

total = 0
for numero in serie_num_clientes:
    total += numero

print(total/len(serie_num_clientes))

75.0


In [None]:
## Nos podemos apoyar con otras funciones, como sum de numpy
## porque mediante la vectorización permite hacer cálculos en simultáneo
## y obtener resultados en menor tiempo

In [None]:
total = np.sum(serie_num_clientes)
print(total/len(serie_num_clientes))

75.0


In [None]:
## ¿Cómo podemos saber cuál forma de cálculo es la más rápida?
## Nos apoyaremos en una función de Jupyter
## Parte de Jupyter son las llamadas "magic functions"
## que se invocan mediante %% y para saber cuáles están disponibles
## bastará con escribir %% y seguido presionar Tab
## Para esto vamos a crear un arreglo muy grande de números

In [None]:
numeros = pd.Series(np.random.randint(0, 1000, 10000))

numeros.head()

0    944
1    773
2    121
3    955
4    736
dtype: int32

In [None]:
len(numeros)

10000

In [None]:
## Ahora utilicemos %%timeit -n 100 para realizar 100 repeticiones del mismo código
## y obtener estadísticas sobre el tiempo de ejecución

In [None]:
%%timeit -n 100
total = 0
for numero in numeros:
    total += numero
total / len(numeros)

623 µs ± 18.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
%%timeit -n 100
total = np.sum(numeros)
total / len(numeros)

43.9 µs ± 10.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
## Observamos que mediante vectorización (uso de funciones como sum)
## permite un cálculo más rápido

In [None]:
## El broadcast es una característica que tienen pandas y numpy
## con esta característica se puede aplicar un operación sobre todos
## los valores de la serie, cambiando así la serie

In [None]:
## Por ejemplo, cambiemos la serie mediante una operación de suma de 2
numeros.head()

0    944
1    773
2    121
3    955
4    736
dtype: int32

In [None]:
numeros += 2
numeros.head()

0    946
1    775
2    123
3    957
4    738
dtype: int32

In [None]:
## La forma procedimental de hacer esto es iterar todos los elementos
## de la serie e incrementar el valor directamente
## Pandas también soporta iteraciones en series tales como el diccionario
## permitiendo desempaquetar los valores fácilmente

for indice, valor in numeros.items():
    numeros.iat[indice] = valor + 2

numeros.head()

0    950
1    779
2    127
3    961
4    742
dtype: int32

In [None]:
%%timeit -n 10
serie = pd.Series(np.random.randint(0, 1000, 10000))

for indice, valor in serie.items():
    serie.loc[indice] = valor + 2

190 ms ± 7.55 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [None]:
%%timeit -n 10
serie = pd.Series(np.random.randint(0, 1000, 10000))
serie += 2

202 µs ± 50.3 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [None]:
## Se puede ver que mediante += es sumamente más rápido

In [None]:
## El atributo .loc no solo permite localizar un dato sino
## también permite añadir un dato a la serie

In [None]:
numeros = pd.Series([1, 2, 3])
numeros.loc["History"] = 102
numeros

0            1
1            2
2            3
History    102
dtype: int64

In [None]:
clases_estudiantes = pd.Series({"Shrek" : "Matemáticas",
                                "Burro" : "Química",
                                "Fiona" : "Karate",
                                "Dragón" : "Filosofía"})
clases_estudiantes

Shrek     Matemáticas
Burro         Química
Fiona          Karate
Dragón      Filosofía
dtype: object

In [None]:
clases_gato = pd.Series(["Arte", "Kung-Fu", "Música"],
                        index = ["Gato con Botas", "Gato con Botas", "Gato con Botas"])
clases_gato

Gato con Botas       Arte
Gato con Botas    Kung-Fu
Gato con Botas     Música
dtype: object

In [None]:
pd.concat([clases_estudiantes, clases_gato])

Shrek             Matemáticas
Burro                 Química
Fiona                  Karate
Dragón              Filosofía
Gato con Botas           Arte
Gato con Botas        Kung-Fu
Gato con Botas         Música
dtype: object

## DATAFRAMES

In [None]:
import pandas as pd

In [None]:
registro_1 = pd.Series({"Nombre" : "André C.",
                        "Curso" : "Matemática",
                        "Nota" : 40})
registro_2 = pd.Series({"Nombre" : "José C.",
                        "Curso" : "Alg. Lineal",
                        "Nota" : 40})
registro_3 = pd.Series({"Nombre" : "Juan Q.",
                        "Curso" : "Programación 5",
                        "Nota" : 100})

In [None]:
df = pd.DataFrame([registro_1, registro_2, registro_3],
                  index = ["universidad1", "universidad2", "universidad3"])
df.head()

Unnamed: 0,Nombre,Curso,Nota
universidad1,André C.,Matemática,40
universidad2,José C.,Alg. Lineal,40
universidad3,Juan Q.,Programación 5,100


In [None]:
## Hay otra forma de crear dataframes, utilizando lista de diccionarios
## donde cada diccionario representa una fila
estudiantes = [{"Nombre" : "André C.",
                "Curso" : "Matemática",
                "Nota" : 40},
               {"Nombre" : "José C.",
                "Curso" : "Alg. Lineal",
                "Nota" : 40},
               {"Nombre" : "Juan Q.",
                "Curso" : "Programación 5",
                "Nota" : 100}]

In [None]:
## Pasamos la lista de diccionarios en la función pd.DataFrame()
df = pd.DataFrame(estudiantes, index = ["universidad1", "universidad2", "universidad3"])
df.head()

Unnamed: 0,Nombre,Curso,Nota
universidad1,André C.,Matemática,40
universidad2,José C.,Alg. Lineal,40
universidad3,Juan Q.,Programación 5,100


In [None]:
## Similar a las series, podemos extraer datos con .iloc y .loc
## Un DataFrame es bidimensional y con loc o iloc puedes
## retornar una fila en forma de serie colocando
df.loc["universidad2"]

Nombre        José C.
Curso     Alg. Lineal
Nota               40
Name: universidad2, dtype: object

In [None]:
type(df.loc["universidad2"])

pandas.core.series.Series

In [None]:
df.loc["universidad1", "Nombre"]

'André C.'

In [None]:
df.T

Unnamed: 0,universidad1,universidad2,universidad3
Nombre,André C.,José C.,Juan Q.
Curso,Matemática,Alg. Lineal,Programación 5
Nota,40,40,100


In [None]:
df.T.loc["Nombre"]

universidad1    André C.
universidad2     José C.
universidad3     Juan Q.
Name: Nombre, dtype: object

In [None]:
df["Nombre"]

universidad1    André C.
universidad2     José C.
universidad3     Juan Q.
Name: Nombre, dtype: object

In [None]:
df.loc["Nombre"]

KeyError: 'Nombre'

In [None]:
type(df["Nombre"])

pandas.core.series.Series

In [None]:
df.loc["universidad1"]["Nombre"]

'André C.'

In [None]:
print(type(df.loc["universidad1"]))
print(type(df.loc["universidad1"]["Nombre"]))

<class 'pandas.core.series.Series'>
<class 'str'>


In [None]:
df.loc[:, ["Nombre", "Nota"]]

Unnamed: 0,Nombre,Nota
universidad1,André C.,40
universidad2,José C.,40
universidad3,Juan Q.,100


In [None]:
df.drop("universidad1")

Unnamed: 0,Nombre,Curso,Nota
universidad2,José C.,Alg. Lineal,40
universidad3,Juan Q.,Programación 5,100


In [None]:
df

Unnamed: 0,Nombre,Curso,Nota
universidad1,André C.,Matemática,40
universidad2,José C.,Alg. Lineal,40
universidad3,Juan Q.,Programación 5,100


In [None]:
copy_df = df.copy()

copy_df.drop("Nombre", inplace = True, axis = 1)
copy_df

Unnamed: 0,Curso,Nota
universidad1,Matemática,40
universidad2,Alg. Lineal,40
universidad3,Programación 5,100


In [None]:
del copy_df["Curso"]
copy_df

Unnamed: 0,Nota
universidad1,40
universidad2,40
universidad3,100


In [None]:
df["Posicion"] = None
df

Unnamed: 0,Nombre,Curso,Nota,Posicion
universidad1,André C.,Matemática,40,
universidad2,José C.,Alg. Lineal,40,
universidad3,Juan Q.,Programación 5,100,


## CONSULTA EN PANDAS

In [None]:
import pandas as pd

In [None]:
data = pd.read_csv("DATA_PINGUINOS_CLASE.csv")
data

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
3,Adelie,Torgersen,,,,,,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007
...,...,...,...,...,...,...,...,...
339,Chinstrap,Dream,55.8,19.8,207.0,4000.0,male,2009
340,Chinstrap,Dream,43.5,18.1,202.0,3400.0,female,2009
341,Chinstrap,Dream,49.6,18.2,193.0,3775.0,male,2009
342,Chinstrap,Dream,50.8,19.0,210.0,4100.0,male,2009


### Mediante Condiciones

In [None]:
## Utilizando where()
condicion_adelie = data["species"] == "Adelie"
condicion_adelie

0       True
1       True
2       True
3       True
4       True
       ...  
339    False
340    False
341    False
342    False
343    False
Name: species, Length: 344, dtype: bool

In [None]:
data.where(condicion_adelie)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007.0
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007.0
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007.0
3,Adelie,Torgersen,,,,,,2007.0
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007.0
...,...,...,...,...,...,...,...,...
339,,,,,,,,
340,,,,,,,,
341,,,,,,,,
342,,,,,,,,


In [None]:
data.where(condicion_adelie).dropna()
## esto permite obtener todos los registres con Adelie, pero ojo, hay que tener cuidado
## si existen otros campos con valores nulos (NaN) porque dropna() por defecto elimina todas
## las filas que tengan NaN en alguno de sus campos

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007.0
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007.0
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007.0
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007.0
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,male,2007.0
...,...,...,...,...,...,...,...,...
147,Adelie,Dream,36.6,18.4,184.0,3475.0,female,2009.0
148,Adelie,Dream,36.0,17.8,195.0,3450.0,female,2009.0
149,Adelie,Dream,37.8,18.1,193.0,3750.0,male,2009.0
150,Adelie,Dream,36.0,17.1,187.0,3700.0,female,2009.0


In [None]:
## Los desarrolladores de pandas han combinado la funcionalidad de where() y dropna()
## mediante el uso de los corchetes []
## se agrega algo de complejidad o texto al código pero la mayoría lo maneja así

data[data["species"] == "Adelie"]

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
3,Adelie,Torgersen,,,,,,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007
...,...,...,...,...,...,...,...,...
147,Adelie,Dream,36.6,18.4,184.0,3475.0,female,2009
148,Adelie,Dream,36.0,17.8,195.0,3450.0,female,2009
149,Adelie,Dream,37.8,18.1,193.0,3750.0,male,2009
150,Adelie,Dream,36.0,17.1,187.0,3700.0,female,2009


In [None]:
data[data["bill_length_mm"] >= 50].head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
153,Gentoo,Biscoe,50.0,16.3,230.0,5700.0,male,2007
155,Gentoo,Biscoe,50.0,15.2,218.0,5700.0,male,2007
172,Gentoo,Biscoe,50.2,14.3,218.0,5700.0,male,2007
181,Gentoo,Biscoe,50.0,15.3,220.0,5550.0,male,2007
185,Gentoo,Biscoe,59.6,17.0,230.0,6050.0,male,2007


In [None]:
## Uso de múltiples condiciones

In [None]:
## Para pandas no es natural utilizar and y or en una condición
(data["species"] == "Gentoo") and (data["year"] == 2007)

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [None]:
## En su lugar se utiliza &(and) o |(or)
(data["species"] == "Gentoo") & (data["year"] == 2007)

0      False
1      False
2      False
3      False
4      False
       ...  
339    False
340    False
341    False
342    False
343    False
Length: 344, dtype: bool

In [None]:
data.value_counts('island')

island
Biscoe       168
Dream        124
Torgersen     52
dtype: int64

In [None]:
data.query("island=='Dream'")

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
30,Adelie,Dream,39.5,16.7,178.0,3250.0,female,2007
31,Adelie,Dream,37.2,18.1,178.0,3900.0,male,2007
32,Adelie,Dream,39.5,17.8,188.0,3300.0,female,2007
33,Adelie,Dream,40.9,18.9,184.0,3900.0,male,2007
34,Adelie,Dream,36.4,17.0,195.0,3325.0,female,2007
...,...,...,...,...,...,...,...,...
339,Chinstrap,Dream,55.8,19.8,207.0,4000.0,male,2009
340,Chinstrap,Dream,43.5,18.1,202.0,3400.0,female,2009
341,Chinstrap,Dream,49.6,18.2,193.0,3775.0,male,2009
342,Chinstrap,Dream,50.8,19.0,210.0,4100.0,male,2009


In [None]:
data.body_mass_g.agg("mean")

4201.754385964912

In [None]:
data[['bill_length_mm','body_mass_g']].agg("mean")

bill_length_mm      43.921930
body_mass_g       4201.754386
dtype: float64

In [None]:
data.groupby('island')['bill_length_mm','body_mass_g'].agg("mean")

  data.groupby('island')['bill_length_mm','body_mass_g'].agg("mean")


Unnamed: 0_level_0,bill_length_mm,body_mass_g
island,Unnamed: 1_level_1,Unnamed: 2_level_1
Biscoe,45.257485,4716.017964
Dream,44.167742,3712.903226
Torgersen,38.95098,3706.372549


In [None]:
(
    data
    .groupby('island')
    .agg(
        long_bill_media = ('bill_length_mm','mean'),
        masa_corportal_media = ('body_mass_g','mean')
    )

 )

Unnamed: 0_level_0,long_bill_media,masa_corportal_media
island,Unnamed: 1_level_1,Unnamed: 2_level_1
Biscoe,45.257485,4716.017964
Dream,44.167742,3712.903226
Torgersen,38.95098,3706.372549
