# Análisis de datos con Pandas

In [7]:
# importamos siempre las librerías numpy y pandas a la vez, y para gráficos matplotlib y/o seaborn
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
print(pd.__version__,"..",
np.__version__)

1.1.5 .. 1.19.5


## Componentes de la librería Pandas [Core Components]

- SERIES (array unidimensional)

In [9]:
sr = pd.Series([10,45,90,30,12,1])
sr

0    10
1    45
2    90
3    30
4    12
5     1
dtype: int64

In [10]:
type(sr)

pandas.core.series.Series

In [11]:
sr

0    10
1    45
2    90
3    30
4    12
5     1
dtype: int64

In [13]:
sr[5]

1

In [14]:
sr[1:3]

1    45
2    90
dtype: int64

In [15]:
sr[:4]

0    10
1    45
2    90
3    30
dtype: int64

In [20]:
sr[-1] # no podemos llamar el último valor por su índice negativo, a diferencia de numpy

KeyError: ignored

In [24]:
# Las series de Pandas se comportan como listas, aplicamos el concepto de List Comprehension
%%timeit
[v/2 for v in sr]

The slowest run took 15.41 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 5: 3.47 µs per loop


In [None]:
# es lo mismo que:
%%timeit
for v in sr:
  ls = v/2
  print(ls) # tardará ~35 ms

Si quiero obtener los atributos de la librería pandas y realizar un bucle obteniendo los valores basado en list comprehension

In [26]:
print([att for att in dir(sr) if not att.startswith("_")])

['T', 'abs', 'add', 'add_prefix', 'add_suffix', 'agg', 'aggregate', 'align', 'all', 'any', 'append', 'apply', 'argmax', 'argmin', 'argsort', 'array', 'asfreq', 'asof', 'astype', 'at', 'at_time', 'attrs', 'autocorr', 'axes', 'backfill', 'between', 'between_time', 'bfill', 'bool', 'clip', 'combine', 'combine_first', 'compare', 'convert_dtypes', 'copy', 'corr', 'count', 'cov', 'cummax', 'cummin', 'cumprod', 'cumsum', 'describe', 'diff', 'div', 'divide', 'divmod', 'dot', 'drop', 'drop_duplicates', 'droplevel', 'dropna', 'dtype', 'dtypes', 'duplicated', 'empty', 'eq', 'equals', 'ewm', 'expanding', 'explode', 'factorize', 'ffill', 'fillna', 'filter', 'first', 'first_valid_index', 'floordiv', 'ge', 'get', 'groupby', 'gt', 'hasnans', 'head', 'hist', 'iat', 'idxmax', 'idxmin', 'iloc', 'index', 'infer_objects', 'interpolate', 'is_monotonic', 'is_monotonic_decreasing', 'is_monotonic_increasing', 'is_unique', 'isin', 'isna', 'isnull', 'item', 'items', 'iteritems', 'keys', 'kurt', 'kurtosis', 'last

In [27]:
sr.min()

1

In [28]:
sr.max()

90

In [29]:
sr.mean()

31.333333333333332

In [30]:
sr.std()

32.800406501546085

In [31]:
sr.values

array([10, 45, 90, 30, 12,  1])

In [32]:
type(sr)

pandas.core.series.Series

In [33]:
type(sr.values)

numpy.ndarray

In [34]:
# Podemos visualizar los índices
sr.index

RangeIndex(start=0, stop=6, step=1)

In [36]:
# Mostrar el tipo de valor
sr.dtype

dtype('int64')

In [37]:
type(sr[4])

numpy.int64

In [38]:
%%timeit
num_max = sum([2**n for n in range(64)])
num_max

10000 loops, best of 5: 21.6 µs per loop


In [46]:
ov = pd.Series([18446744073709551615])
ov

0    18446744073709551615
dtype: uint64

In [47]:
print(sr.name)

None


In [48]:
sr.name = "Numeros"

In [49]:
sr

0    10
1    45
2    90
3    30
4    12
5     1
Name: Numeros, dtype: int64

In [50]:
sr.dtype

dtype('int64')

In [52]:
# No me dejará asignar valores a cadena de texto
sr.dtype = str

AttributeError: ignored

In [57]:
# Pero si de otra forma, utilizando apply()
textos = sr.apply(str)
textos

0    10
1    45
2    90
3    30
4    12
5     1
Name: Numeros, dtype: object

In [56]:
type(sr[0])

numpy.int64

In [58]:
type(textos[0])

str

In [59]:
sr[3] = "44"
sr

0    10
1    45
2    90
3    44
4    12
5     1
Name: Numeros, dtype: int64

In [61]:
sr[3]

44

In [60]:
type(sr[3])

numpy.int64

In [62]:
sr[0] = "Ten"
sr

0    Ten
1     45
2     90
3     44
4     12
5      1
Name: Numeros, dtype: object

In [63]:
sr.apply(type) # cuando tenemos varios tipo de datos entonces la Serie se transformará en Object

0    <class 'str'>
1    <class 'int'>
2    <class 'int'>
3    <class 'int'>
4    <class 'int'>
5    <class 'int'>
Name: Numeros, dtype: object

In [66]:
sr.apply(lambda x: x if type(x) == int else np.nan).sum()

192.0

In [67]:
sr.apply(lambda x:x).sum() # el motivo de utilizar un filtro es para descartar los valores que no son INT y además le ponemos NAN

TypeError: ignored

In [68]:
sr # podemos visualizar el índice y la propia serie

0    Ten
1     45
2     90
3     44
4     12
5      1
Name: Numeros, dtype: object

In [71]:
# Podemos atribuir nuevo índice
sr.index = ["a","b","c","d","e","f"]
sr

a    Ten
b     45
c     90
d     44
e     12
f      1
Name: Numeros, dtype: object

In [72]:
sr['d'] # Puedo utilizar el propio índice para obtener el valor

44

## `loc` vs `iloc`

- **loc** -> locate por índice
- **iloc** -> localte por posición (número)

In [73]:
sr = pd.Series([6,3,78,2,4,0,4])
sr

0     6
1     3
2    78
3     2
4     4
5     0
6     4
dtype: int64

In [76]:
sr.sort_values(ascending=False) # ordenamos los valor por defecto True

2    78
0     6
6     4
4     4
1     3
3     2
5     0
dtype: int64

In [79]:
sr.sort_index(ascending=False) # también podemos ordenar por índice

6     4
5     0
4     4
3     2
2    78
1     3
0     6
dtype: int64

In [82]:
sr = sr.sort_values(ascending=False)
sr

2    78
0     6
4     4
6     4
1     3
3     2
5     0
dtype: int64

In [83]:
sr

2    78
0     6
4     4
6     4
1     3
3     2
5     0
dtype: int64

In [85]:
# Hay otra forma de reemplazar el order o elementos por defecto, inplace=True
sr.sort_values(inplace=True)

In [86]:
sr

5     0
3     2
1     3
4     4
6     4
0     6
2    78
dtype: int64

In [87]:
# Index NAME > Index Position
sr.loc[2] # estoy llamando el valor por su índice

78

In [88]:
# Cuando quiero obtener el valor por su posición
sr.iloc[2]

3

## Ejemplo con loc e iloc

In [90]:
grades = pd.Series(name='Grades', data=[8,3,4,np.nan,5.7,7,8.9,10])

In [91]:
grades

0     8.0
1     3.0
2     4.0
3     NaN
4     5.7
5     7.0
6     8.9
7    10.0
Name: Grades, dtype: float64

In [92]:
# Primer paso es eliminar los valores nulos
grades.dropna()

0     8.0
1     3.0
2     4.0
4     5.7
5     7.0
6     8.9
7    10.0
Name: Grades, dtype: float64

In [93]:
grades

0     8.0
1     3.0
2     4.0
3     NaN
4     5.7
5     7.0
6     8.9
7    10.0
Name: Grades, dtype: float64

In [94]:
# Volvemos a utilizar el atributo inplace=True
grades.dropna(inplace=True)

In [95]:
grades

0     8.0
1     3.0
2     4.0
4     5.7
5     7.0
6     8.9
7    10.0
Name: Grades, dtype: float64

In [97]:
# Comprobamos que se ha eliminado correctamente
grades[3] #por su índice 3 no tenemos el valor

KeyError: ignored

In [99]:
grades

0     8.0
1     3.0
2     4.0
4     5.7
5     7.0
6     8.9
7    10.0
Name: Grades, dtype: float64

In [100]:
grades.iloc[3] # mostrará el valor por su posición 3

5.7

In [102]:
grades.loc[3] # obviamente por su índice no tenemos ya el valor

KeyError: ignored

In [103]:
grades.loc[2]

4.0

In [104]:
grades.sort_values(inplace=True, ascending=False)

In [105]:
grades

7    10.0
6     8.9
0     8.0
5     7.0
4     5.7
2     4.0
1     3.0
Name: Grades, dtype: float64

## Seleccionar más elementos

In [106]:
top3 = grades.iloc[:3]

In [107]:
top3

7    10.0
6     8.9
0     8.0
Name: Grades, dtype: float64

In [110]:
# Con una lista
grades[[7,6,0]]

7    10.0
6     8.9
0     8.0
Name: Grades, dtype: float64

## Otros ejemplos de obtener valor por índice y posición

In [115]:
animales = pd.Series(name="animales",
                     index=["gorilla","orca","panda","rhino","lynx"],
                     data=[1063,50_000,1864,27_000,900])

In [116]:
animales

gorilla     1063
orca       50000
panda       1864
rhino      27000
lynx         900
Name: animales, dtype: int64

In [118]:
animales["panda"]

1864

In [119]:
animales + 5 # también podemos manipular los valores de una serie

gorilla     1068
orca       50005
panda       1869
rhino      27005
lynx         905
Name: animales, dtype: int64

In [120]:
lst = []
ind = []
i = 0
for pop in animales:
  if pop < 2000:
    lst.append(pop)
    ind.append(animales.index[i])
  i+=1

In [121]:
lst,ind

([1063, 1864, 900], ['gorilla', 'panda', 'lynx'])

In [122]:
new_serie = pd.Series(index=ind,
                      data=lst)
new_serie # y nuevamente creamos una Serie con Pandas.

gorilla    1063
panda      1864
lynx        900
dtype: int64

In [123]:
type(new_serie)

pandas.core.series.Series

### También podemos realizar lo mismo con iloc y loc

In [124]:
animales < 2000

gorilla     True
orca       False
panda       True
rhino      False
lynx        True
Name: animales, dtype: bool

In [125]:
# FROM animales LOCATE el elemento WHERE valor < 2000
new_serie = animales.loc[animales < 2000]
new_serie

gorilla    1063
panda      1864
lynx        900
Name: animales, dtype: int64

In [126]:
# También se podría obtener de la siguiente manera
animales[[True,False,False,True,True]]

gorilla     1063
rhino      27000
lynx         900
Name: animales, dtype: int64

In [127]:
cond = animales < 2000
cond

gorilla     True
orca       False
panda       True
rhino      False
lynx        True
Name: animales, dtype: bool

In [134]:
animales[cond]

gorilla    1063
panda      1864
lynx        900
Name: animales, dtype: int64

In [135]:
# otra forma de pasar los valores en un filtro
animales.apply(lambda x: x%2 == 1)

gorilla     True
orca       False
panda      False
rhino      False
lynx       False
Name: animales, dtype: bool

In [136]:
animales[animales.apply(lambda x : x%2 == 1)]

gorilla    1063
Name: animales, dtype: int64

In [137]:
# Buscar solo los animales que tienen meno de 5 letras
less5char = list(map(lambda x: len(x) < 5, animales.index))
less5char

[False, True, False, False, True]

In [139]:
animales[less5char]

orca    50000
lynx      900
Name: animales, dtype: int64

## Combinamos 2 series con loc

In [140]:
hab = pd.Series(name="habitat",
                    index=["gorilla","orca","panda","rhino","lynx"],
                    data=["Africa","Ocean","Asia","Africa","Europe"])

In [141]:
hab == 'Africa'

gorilla     True
orca       False
panda      False
rhino       True
lynx       False
Name: habitat, dtype: bool

In [142]:
hab[hab == 'Africa']

gorilla    Africa
rhino      Africa
Name: habitat, dtype: object

In [143]:
animales[hab == 'Africa']

gorilla     1063
rhino      27000
Name: animales, dtype: int64

In [144]:
hab_sorted = hab.sort_values()
hab_sorted

gorilla    Africa
rhino      Africa
panda        Asia
lynx       Europe
orca        Ocean
Name: habitat, dtype: object

In [145]:
animales

gorilla     1063
orca       50000
panda       1864
rhino      27000
lynx         900
Name: animales, dtype: int64

In [146]:
hab_sorted == "Africa"

gorilla     True
rhino       True
panda      False
lynx       False
orca       False
Name: habitat, dtype: bool

In [147]:
animales[hab_sorted == "Africa"]

gorilla     1063
rhino      27000
Name: animales, dtype: int64

In [148]:
# Qué pasa cuando estamos manipulando datos con índice diferente
hab = pd.Series(name="habitat",
                    index=["gorilla","orca","panda","rhino","lynx", "giraffe", "shark"],
                    data=["Africa","Ocean","Asia","Africa","Europe", "Africa", "Ocean"])

In [149]:
animales[hab == 'Africa']

gorilla     1063
rhino      27000
Name: animales, dtype: int64

In [150]:
animales

gorilla     1063
orca       50000
panda       1864
rhino      27000
lynx         900
Name: animales, dtype: int64

In [151]:
hab[animales < 2000]

IndexingError: ignored

In [152]:
# Entonces evaluamos los índices por loc y observamos si este se encuentra en la Serie
set(animales.index).issubset(set(hab.index))

True

In [153]:
set(hab.index).issubset(set(animales.index))

False

***
## Dataframe

- matrices 2d organizadas por filas y columnas (rows and columns)

In [154]:
df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


### Index

In [155]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [156]:
df.index = ["one", "two", "three"] # también podemos cambiar su índice
df

Unnamed: 0,0,1,2
one,1,2,3
two,4,5,6
three,7,8,9


### Columnas

In [157]:
df.columns

RangeIndex(start=0, stop=3, step=1)

In [158]:
df.columns = ["A", "B", "C"]
df

Unnamed: 0,A,B,C
one,1,2,3
two,4,5,6
three,7,8,9


### Values

In [159]:
df.values

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [160]:
type(df.values) # demostramos que los valores de un DF son array de NumPy

numpy.ndarray

In [161]:
type(df) # evaluando el tipo de objeto DF vemos que un DataFrame de Pandas

pandas.core.frame.DataFrame

In [162]:
type(df["A"]) # si listamos por la columna "A", obtenemos una Series de Pandas

pandas.core.series.Series

In [163]:
type(df.A) # de forma alternativa se puede obtener dataframe.nombre_columna

pandas.core.series.Series

In [167]:
df.dtypes

A    int64
B    int64
C    int64
dtype: object

### Accedemos a los elementos

In [168]:
df.A # es el equivalente de df["A"]

one      1
two      4
three    7
Name: A, dtype: int64

Importante cuando tenemos nombre de columnas con espacios o guiones es mejor utilizar df["A"] por ejemplo en lugar de df.A

In [172]:
df

Unnamed: 0,A,B,C
one,1,2,3
two,4,5,6
three,7,8,9


In [170]:
df.loc['one'] # con loc y llamando su índice obtenemos los valores de las tres columnas

A    1
B    2
C    3
Name: one, dtype: int64

In [171]:
df.loc['A']

KeyError: ignored

In [173]:
df.loc['one','A']

1

In [174]:
df.loc[:,"A"] # siempre para poder obtener valores de la columna, es utilizar slice[rows:cols]

one      1
two      4
three    7
Name: A, dtype: int64

In [176]:
df.iloc[0] # por su posición 0 obtenemos los valores de la primera fila

A    1
B    2
C    3
Name: one, dtype: int64

In [178]:
df

Unnamed: 0,A,B,C
one,1,2,3
two,4,5,6
three,7,8,9


In [177]:
df.iloc[:2,0] # utilizamos iloc por su posición para obtener los valores 1,4 de la posición 0,1 (one, two) de la columna 0 (A)

one    1
two    4
Name: A, dtype: int64

In [179]:
df.iloc[1:2,0]

two    4
Name: A, dtype: int64

In [187]:
df.iloc[:3,:2] # es lo mismo que iloc[0:3,:2]

Unnamed: 0,A,B
one,1,2
two,4,5
three,7,8


In [188]:
# Podemos aignar otra columna
df['new'] = ['a','b','c'] # es simplemente indicar la nueva columna y asignar valores
df

Unnamed: 0,A,B,C,new
one,1,2,3,a
two,4,5,6,b
three,7,8,9,c


## Crear un DataFrame desde Series

In [189]:
zoo = pd.DataFrame()
zoo

In [190]:
zoo['Habitat'] = hab
zoo['Pop'] = animales
zoo

Unnamed: 0,Habitat,Pop
gorilla,Africa,1063.0
orca,Ocean,50000.0
panda,Asia,1864.0
rhino,Africa,27000.0
lynx,Europe,900.0
giraffe,Africa,
shark,Ocean,


In [191]:
type(zoo['Pop'])

pandas.core.series.Series

In [192]:
type(zoo)

pandas.core.frame.DataFrame

In [194]:
type(zoo.loc['gorilla'])

pandas.core.series.Series

In [195]:
zoo.loc['gorilla']

Habitat    Africa
Pop          1063
Name: gorilla, dtype: object

In [196]:
zoo['Habitat'] = zoo['Habitat'].apply(lambda x:x.upper())
zoo

Unnamed: 0,Habitat,Pop
gorilla,AFRICA,1063.0
orca,OCEAN,50000.0
panda,ASIA,1864.0
rhino,AFRICA,27000.0
lynx,EUROPE,900.0
giraffe,AFRICA,
shark,OCEAN,


In [None]:
bo