In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

# What is pandas and Data structures

- pandas contanins data structures and data manipulation tools designed to make data cleaning and analysis fast and easy in Python.

- It is designed for working with tabular or heterogeneous data. Numpy, by contrast, is best suited for working with homogeneous numerical array data.

- Its two workhorse data structures are Series and DataFrame.

# Series

- One-dimensional array-like object containing a sequence of values (of similar types to Numpy types) and an associated array of data labels, called its index.

- A way to think about a Series is as a fixed-length, ordered dict, as it is a mapping of index values to data values.

In [18]:
# Create a Series from a list
obj = pd.Series([4, 7, -5, 3]) # Since we don't specify an index for the data, a default one consisting of the integers 0 through n-1 is created.
print(obj)
obj.index
obj.values

# Assignar indexs a posteriori
obj.index = [1, 2, 3, 4]

# Assignar indexs en definir
obj2 = pd.Series([4, 7, -5, 3], index = ["d", "b", "a", "c"])

# Create a Series from a dictionary
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
obj3 = pd.Series(sdata)
print(obj3)

# Redefinir indexs, canviant ordre, afegint, traient

# Opció 1, en la creació
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index = states)
print(obj4)

# Opció 2, després en un nou objecte
obj5 = obj4.reindex(["California", "Oregon", "Ohio", "Utah"]) # Si no estava la label en l'anterior, col·loca NaN
#print(obj5)

obj6 = obj4.reindex(["California", "Oregon", "Ohio", "Utah"], method = "ffill") # Si hi ha valors NaN, els reemplaça pel valor de la fila prèvia o si axis="columns", pel de la columna prèvia.
print(obj6)

# Series object and its index have a "name" attribute.
obj4.name = "population"
obj4.index.name = "state"
print(obj4)

# Indexar una Serie de valors repetits a partir d'una Serie dels valors únics - get_indexer

srep = pd.Series(["c", "a", "b", "b", "c", "a"]) # els índexs ara són 0,1,2,3,4,5
unique = pd.Series(srep.unique()) #method unique a la secció Descriptive Statistics dels apunts.

arrindex = pd.Index(unique).get_indexer(srep)
srep2 = srep.reindex(index=arrindex)
print(srep2)


0    4
1    7
2   -5
3    3
dtype: int64
Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64
California        NaN
Oregon        16000.0
Ohio          35000.0
Utah          71000.0
dtype: float64
state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64
0    c
1    a
2    b
2    b
0    c
1    a
dtype: object


# DataFrame

- A DataFrame represents a rectangular table of data and contains an ordered collection of columns, each of which can be a different value type (numeric, string, boolean, etc.). The DataFrame has both row and column index.

In [14]:
# OPCIÓ 1: From a dict of equal-length lists

data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
"year": [2000, 2001, 2002, 2001, 2002, 2003],
"pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)
print(frame)

# Definir indexs, canviar ordre de les columnes en crear el DataFrame
frame2 = pd.DataFrame(data, index = ["one", "two", "three", "four", "five", "six"] , columns = ["year", "state", "pop"])
# print(frame2)

# Definir indexs a posteriori mitjançant un pd.Index([ ]), una columna del Dataframe o el metohd reindex.
#frame22 = frame.set_index(pd.Index(["one", "two", "three", "four", "five", "six"]))

#frame22 = frame.set_index("state")

frame22 = frame.reindex(index = ["one", "two", "three", "four", "five", "six"], columns=["year", "state", "pop", "crimes"], fill_value=0) # Si afegim una nova columna que tindrà valors NaN, podem usar argument fill_value per omplir-los.

print(frame22)

# OPCIÓ 2: From ndarrays from Numpy

frame1 = pd.DataFrame(np.arange(9.).reshape((3,3)), columns=list("bcd"), index=["Ohio", "Texas", "Colorado"])

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2
       year state  pop  crimes
one       0     0  0.0       0
two       0     0  0.0       0
three     0     0  0.0       0
four      0     0  0.0       0
five      0     0  0.0       0
six       0     0  0.0       0
0    c
1    a
2    b
2    b
0    c
1    a
dtype: object


In [24]:
# OPCIÓ 3: From a nested dict of dicts

popdata = {"Nevada": {2001: 2.4, 2002: 2.9}, "Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = pd.DataFrame(popdata, index = [2000, 2001, 2002]) # the outer dict keys are the columns and the inner keys are the rows indices. He afegit index = per ordenar els anys al meu gust.
print(frame3)

# index and columns have their name attributes

frame3.index.name = "year"
frame3.columns.name = "state"

print(frame3)

# OPCIÓ 4: From Series

data_emp = {'Apple': 147000, 'Samsung': 267937, 'Google': 135301, 'Microsoft': 163000, 'Huawei': 197000, 'Dell': 158000, 'Facebook': 58604, 'Foxconn': 878429, 'Sony': 109700}
employees = pd.Series(data_emp, name='Tech Employees')

data_rev = {'Apple': 274515, 'Samsung': 200734, 'Google': 182527, 'Microsoft': 143015, 'Huawei': 129184, 'Dell': 92224, 'Facebook': 85965, 'Foxconn': 181945, 'Sony': 84893}
revenues = pd.Series(data_rev, name="Tech Revenues")

df = pd.DataFrame({"employees": employees, "revenues": revenues})
print(df)

# ALTRES OPCIONS: Des de una llista de dicionaris, des de una llista de llistes, 
# [{'A': 1, 'B': 2, 'C': 3}, {'A': 4, 'B': 5, 'C': 6}]
# [[1, 2], [3, 4], [5, 6]]

      Nevada  Ohio
2000     NaN   1.5
2001     2.4   1.7
2002     2.9   3.6
state  Nevada  Ohio
year               
2000      NaN   1.5
2001      2.4   1.7
2002      2.9   3.6
           employees  revenues
Apple         147000    274515
Samsung       267937    200734
Google        135301    182527
Microsoft     163000    143015
Huawei        197000    129184
Dell          158000     92224
Facebook       58604     85965
Foxconn       878429    181945
Sony          109700     84893


## Series: Selection

- isnull and notnull to detect missing data

In [6]:
obj2 = pd.Series([4, 7, -5, 3], index = ["d", "b", "a", "c"])

# Filtrar
dat2 = obj2[obj2 > 0] 
print(dat2)

"b" in obj2 # True. Saber si un label hi és en la Serie

mask = obj2.isin([3, 4])
print(mask) # True o False segons si és 3 o 4 o no.
print(obj2[mask])


# Slicing

print("Els dos últims:\n", obj2[-2:]) 
print("De principi a fi de dos en dos:\n", obj2[::2])
print("Els elements de b a c:\n", obj2["b":"c"]) # Slicing per label, INCLOU INICI I FI
print("L'element b és:", obj2["b"])


# Detectar missing data

sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index = states)

print(pd.isnull(obj4)) 


d    4
b    7
c    3
dtype: int64
d     True
b    False
a    False
c     True
dtype: bool
d    4
c    3
dtype: int64
Els dos últims:
 a   -5
c    3
dtype: int64
De principi a fi de dos en dos:
 d    4
a   -5
dtype: int64
Els elements de b a c:
 b    7
a   -5
c    3
dtype: int64
L'element b és: 7
California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool


## DataFrame: Selection

In [51]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
"year": [2000, 2001, 2002, 2001, 2002, 2003],
"pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)
print(frame)

frame.index # Només els índexs de les files. En aquest cas, no definits, 0,1,2,3,4,5

frame.values # Només els valors

frame.columns # Només els índexs de les columnes

frame["state"] # Seleccionar una columna. Equivalent: frame.state

frame[0:2] # Seleccionar les dues primeres columnes. Usar enters pot portar a errors entre índexs i posició. Millor usar iloc.

frame.loc[0] # Seleccionar una fila by label

frame.loc[0:2, ["state", "pop"]] # Seleccionar un element, o una combinació de files i columnes. Slicing per labels, INCLOU INICI I FI

frame.iloc[0, 1] # Seleccionar mitjançant posició (integers) i no label

frame.head() # to view only the first five rows
frame.tail(3) # to view only the last three rows

# Saber si una columna o fila hi és en la taula
"year" in frame.columns # True
6 in frame.index # False

# Mostrar True/False si data compleix certes condicions
frame["pop"] < 2

# Mostrar data que compleix certes condicions
print(frame[["state", "pop"]][frame["pop"] < 2]) # Veure state i pop dels que tenen pop < 2

print(frame.loc[frame["pop"] < 2, ["state", "pop"]]) # Equivalent a l'anterior

print(frame[frame["year"] == 2001]) # Files tal que year sigui 2001

print(frame[frame["state"].str.contains("Oh")]) # Les files tal que state contingui la string Oh

print(frame.loc[frame["state"].str.contains("Oh")]) # Equivalent a l'anterior. loc accepta boolean lists

print(frame[frame["state"].str.contains("Oh")].loc[0:1]) # Les dos primeres files tal que state contingui la string Oh


    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2
  state  pop
0  Ohio  1.5
1  Ohio  1.7
  state  pop
0  Ohio  1.5
1  Ohio  1.7
    state  year  pop
1    Ohio  2001  1.7
3  Nevada  2001  2.4
  state  year  pop
0  Ohio  2000  1.5
1  Ohio  2001  1.7
2  Ohio  2002  3.6
  state  year  pop
0  Ohio  2000  1.5
1  Ohio  2001  1.7
2  Ohio  2002  3.6
  state  year  pop
0  Ohio  2000  1.5
1  Ohio  2001  1.7


## Series: Modifications

In [31]:
obj2 = pd.Series([4, 7, -5, 3], index = ["d", "b", "a", "c"])

# Eliminar un valor
# del obj2["a"]

# Nova Serie havent eliminat valors 
obje = obj2.drop(["b", "c"]) # usar ,inplace = True per aplicar-ho al propi objecte

print(obj2)

# Modificar un valor per assignació
obj2["d"] = 5
print(obj2)

# Afegir un nou valor
obj2["e"] = -1
print(obj2)


d    5
b    7
a   -5
c    3
dtype: int64
d    5
b    7
a   -5
c    3
dtype: int64
d    5
b    7
a   -5
c    3
e   -1
dtype: int64


## DataFrame: Modifications

In [60]:
popdata = {"Nevada": {2001: 2.4, 2002: 2.9}, "Ohio": {2000: 1.5, 2001: 3.6, 2002: 1.9}}
frame3 = pd.DataFrame(popdata, index = [2000, 2001, 2002]) 

# Modificar valors per nova assignació
frame3["Nevada"] = [2.1, 2.2, 2.8] # Si només posem un valor, s'assignaria el mateix a totes les files.
frame3["Ohio"][2000] = 1.3 # Modificar un element concret
#print(frame3)

frame3.loc[frame3["Nevada"] > 2.5, ["Nevada"]] = 5 # Modificar valors d'una columna segons condició
#print(frame3)

frame3.loc[frame3.index == 2000, ["Nevada", "Ohio"]] = [5, 4] # Modificar valors de més d'una columna de manera personalitzada segons condició
#print(frame3)


# Modificar tota una columna a partir d'una Serie. Si no es posen tots els indexs, posa NaN.
val = pd.Series([2.6, 3], index=[2001, 2002])
frame3["Nevada"] = val
print(frame3)

# Afegir una nova columna
frame3["California"] = [1, 2, 3]

frame3["Exceed_Ohio"] = frame3["Ohio"] > 2.5 # Nova columna booleana
print(frame3)

# Afegir una nova fila
dosmiltres = pd.DataFrame(data=[[3.2, 4.1, 4, True]], columns=frame3.columns, index=[2003])

frame3 = pd.concat([frame3, dosmiltres], axis=0) # Concatenar dos o més DataFrames
print(frame3)

# Reemplaçar els valors d'una columna amb una recodificació
boolrare = {True: False, False: True}
frame3["Exceed_Ohio"].replace(boolrare, inplace=True)
print(frame3)

# Eliminar una columna
del frame3["Nevada"]

# Crear un nou objecte sense alguna columna o fila
framec = frame3.drop("Ohio", axis = 1) # usar ,inplace = True per aplicar-ho al propi objecte
framef = frame3.drop(2000)

# Transposar el DataFrame
frame3.T


      Nevada  Ohio
2000     2.1   1.3
2001     2.2   3.6
2002     2.8   1.9
      Nevada  Ohio
2000     2.1   1.3
2001     2.2   3.6
2002     5.0   1.9
      Nevada  Ohio
2000     5.0   4.0
2001     2.2   3.6
2002     5.0   1.9
      Nevada  Ohio
2000     NaN   4.0
2001     2.6   3.6
2002     3.0   1.9
      Nevada  Ohio  California  Exceed_Ohio
2000     NaN   4.0           1         True
2001     2.6   3.6           2         True
2002     3.0   1.9           3        False
      Nevada  Ohio  California  Exceed_Ohio
2000     NaN   4.0           1         True
2001     2.6   3.6           2         True
2002     3.0   1.9           3        False
2003     3.2   4.1           4         True
      Nevada  Ohio  California  Exceed_Ohio
2000     NaN   4.0           1        False
2001     2.6   3.6           2        False
2002     3.0   1.9           3         True
2003     3.2   4.1           4        False


Unnamed: 0,2000,2001,2002,2003
Ohio,4.0,3.6,1.9,4.1
California,1,2,3,4
Exceed_Ohio,False,False,True,False


## Series: Operations

- You can use Numpy functions or Numpy-like operations.

- artihmetic methods: add (+), sub (-), div (/), floordiv (//), mul (*), pow (**). Si posem r al davant, radd, rsub... invertim ordre de l'operació: a - b equivalent a a.sub(b) equivalent a b.rsub(a).

In [8]:
obj2 = pd.Series([4, 7, -5, 3], index = ["d", "b", "a", "c"])
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
obj3 = pd.Series(sdata)
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index = states)

print(obj2 * 2)

print(obj3 + obj4) # Sumar els valors que tenen el mateix índex, els que no pot sumar, els converteix en NaN.

print(np.abs(obj2)) # valor absolut. Funció Numpy.

f = lambda x : x - abs(x)
print(obj2.map(f)) # .map aplicar una funció a cada un dels elements.

d     8
b    14
a   -10
c     6
dtype: int64
California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64
d    4
b    7
a    5
c    3
dtype: int64
d     0
b     0
a   -10
c     0
dtype: int64


## DataFrame: Operations

- artihmetic methods: add (+), sub (-), div (/), floordiv (//), mul (*), pow (**). Si posem r al davant, radd, rsub... invertim ordre de l'operació: a - b equivalent a a.sub(b) equivalent a b.rsub(a).

- Numpy ufuncs also work with pandas objects,

In [39]:
df1 = pd.DataFrame(np.arange(9.).reshape((3,3)), columns=list("bcd"), index=["Ohio", "Texas", "Colorado"])

df2 = pd.DataFrame(np.arange(12.).reshape((4,3)), columns=list("bde"), index=["Utah", "Ohio", "Texas", "Oregon"])

print(df1)
print(df2)

print(df1 + df2) # Cal que índex de fila i columna coincideixin per poder sumar-los. Sinó, NaN.
print(df1.add(df2, fill_value=0)) # Es pot usar els methods per operar(add, sub, div...) i l'argument fill_value per si un element només està en una taula, assignar-li valor a l'altra taula per sumar. Si l'element no està en cap de les dues taules, seguirà apareixent NaN.

            b    c    d
Ohio      0.0  1.0  2.0
Texas     3.0  4.0  5.0
Colorado  6.0  7.0  8.0
          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0
            b   c     d   e
Colorado  NaN NaN   NaN NaN
Ohio      3.0 NaN   6.0 NaN
Oregon    NaN NaN   NaN NaN
Texas     9.0 NaN  12.0 NaN
Utah      NaN NaN   NaN NaN
            b    c     d     e
Colorado  6.0  7.0   8.0   NaN
Ohio      3.0  1.0   6.0   5.0
Oregon    9.0  NaN  10.0  11.0
Texas     9.0  4.0  12.0   8.0
Utah      0.0  NaN   1.0   2.0


In [45]:
# OPERATIONS BETWEEN DATAFRAME AND SERIES
# Arithmetic between them matches the index of the Series on the DataFrame's columns, broadcasting down the rows.

frame = pd.DataFrame(np.arange(12.).reshape((4,3)), index=["Utah", "Ohio", "Texas", "Oregon"], columns=list("bde"))

series = frame.iloc[0] # La primera fila

print(frame)
print(series)

print(frame - series) # resta la fila series a totes les files de frame lligant b-b, d-d, e-e. Si hi hagués algun índex sense match, NaN.

# Si volem lligar índexs per files, i fer broadcast over the columns, cal usar els arithmetic methods: add, sub... i l'argument axis="index"

series2 = frame["d"] # la columna d
print(series2)

print(frame.sub(series2, axis="index")) # resta la columna d a totes les columnes de frame, lligant Utah, Ohio...


          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0
b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64
          b    d    e
Utah    0.0  0.0  0.0
Ohio    3.0  3.0  3.0
Texas   6.0  6.0  6.0
Oregon  9.0  9.0  9.0
Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64
          b    d    e
Utah   -1.0  0.0  1.0
Ohio   -1.0  0.0  1.0
Texas  -1.0  0.0  1.0
Oregon -1.0  0.0  1.0


In [13]:
# FUNCTION APPLICATION AND MAPPING

frame = pd.DataFrame(np.random.randn(4,3), index=["Utah", "Ohio", "Texas", "Oregon"], columns=list("bde"))
print(frame)

#Numpy function
print(np.abs(frame)) 

# Applying a function on one-dimensional arrays to each column or row. - APPLY
f = lambda x: x.max() - x.min()

print(frame.apply(f)) # Aplica per columnes

print(frame.apply(f, axis="columns")) # aplica per files, és a dir, saltant columnes

def g(x) : # Un altre exemple
    return pd.Series([x.min(), x.max()], index=["min", "max"])

print(frame.apply(g))

# Element-wise Python functions - APPLYMAP

format = lambda x: "%.2f" % x # Formateja valors a floats amb dos decimals

print(frame.applymap(format))



               b         d         e
Utah   -0.619936  0.383376 -1.008632
Ohio   -0.371243  0.958097 -0.199604
Texas  -2.595658 -0.802796 -0.441220
Oregon  0.540372  0.002627 -0.636958
               b         d         e
Utah    0.619936  0.383376  1.008632
Ohio    0.371243  0.958097  0.199604
Texas   2.595658  0.802796  0.441220
Oregon  0.540372  0.002627  0.636958
b    3.136030
d    1.760894
e    0.809028
dtype: float64
Utah      1.392008
Ohio      1.329341
Texas     2.154439
Oregon    1.177330
dtype: float64
            b         d         e
min -2.595658 -0.802796 -1.008632
max  0.540372  0.958097 -0.199604
            b      d      e
Utah    -0.62   0.38  -1.01
Ohio    -0.37   0.96  -0.20
Texas   -2.60  -0.80  -0.44
Oregon   0.54   0.00  -0.64


## Series: Sorting and ranking

In [24]:
obj = pd.Series(range(4), index=["d", "a", "b", "c"])

print(obj.sort_index()) # Ordenat pels índexs

print(obj.sort_values()) # Ordenat pels valors

series = pd.Series([7, -5, 7, 4, 2, 0, 4, 4])

print(series.rank()) # amb el número 1, el valor més petit, i d'aquí en amunt. Si números repetits, se'ls otorga la mitjana de les posicions. Per exemple, els 4 estan en posició 4-5-6, per això els tres reben un 5. I els 7 estan en posició 7 i 8, per això reben un 7.5. Hi ha altres mètodes per valors repetits, com "first", "max", "min", "dense".

print(series.rank(ascending = False, method = "min")) # amb 1 el valor més gran. Si repetits, la posició menor per tots.


a    1
b    2
c    3
d    0
dtype: int64
d    0
a    1
b    2
c    3
dtype: int64
0    7.5
1    1.0
2    7.5
3    5.0
4    3.0
5    2.0
6    5.0
7    5.0
dtype: float64
0    1.0
1    8.0
2    1.0
3    3.0
4    6.0
5    7.0
6    3.0
7    3.0
dtype: float64


## DataFrame: Sorting and ranking

In [43]:
frame = pd.DataFrame(np.random.randn(4,4), index=[3, 2, 4, 1], columns=["d", "a", "b", "c"])
print(frame)

frame.sort_index() # Per índexs fila
frame.sort_index(axis=1) # Per índexs columna
frame.sort_values(by="c", ascending=False) # Per valors d'una columna, de gran a petit. Podem posar-hi més d'una columna by=["", ""]

print(frame.rank()) # Rang de petit a gran per columnes
print(frame.rank(axis = "columns", ascending=False)) # Rang de gran a petit per files

          d         a         b         c
3 -1.771059  0.115122  0.257853 -0.912060
2  0.139835 -0.203534  0.835837 -0.125360
4 -1.335450  0.823848  0.422093  0.123598
1 -0.759722  0.870042  0.266013 -0.078854
     d    a    b    c
3  1.0  2.0  1.0  1.0
2  4.0  1.0  4.0  2.0
4  2.0  3.0  3.0  4.0
1  3.0  4.0  2.0  3.0
     d    a    b    c
3  4.0  2.0  1.0  3.0
2  2.0  4.0  1.0  3.0
4  4.0  1.0  2.0  3.0
1  4.0  1.0  2.0  3.0


# Axis indexes with duplicate labels

All of the examples we've looked at have had unique axis labels. While many pandas functions, like reindex, require that the labels be unique, it's not mandatory.

The index's "is_unique" property can tell you whether its labels are unique or not.

# Descriptive Statistics

- Compared with the similar methods found on Numpy arrays, these ones have been built-in handling for missing data.

In [69]:
data = np.array([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]])
df = pd.DataFrame(data, index=list("abcd"), columns=["one","two"])
print(df)

print(df.sum()) # NA values are excluded. Si volem que els contempli i per tant aparegui NaN en la suma, skipna=False.  # Si volem sumar les files, axis=1.

df.max() # valor màxim de cada columna

df["one"].idxmax() # index del valor màxim de la columna "one"

df.cumsum() # Suma acumulativa

df.nlargest(3, "one") # els tres registres amb valor més gran en la columna "one"
df.nsmallest(3, "one") # els tres registres amb valor més petit en la columna "one"

print(df.describe()) # taula amb un resum d'estadístiques

# Si les dades són no-numèriques mostra altres estadístiques, per exemple en aquesta Serie:

obj = pd.Series(["a", "a", "b", "c"] * 4)
print(obj.describe())

print(obj.unique()) # Valors únics de la Serie, com un Set
print(obj.value_counts()) # Freqüència de cada valor. # value_counts també està disponible com un method de pandas per ser usat en qualsevol array o seqüència

    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3
one    9.25
two   -5.80
dtype: float64
            one       two
count  3.000000  2.000000
mean   3.083333 -2.900000
std    3.493685  2.262742
min    0.750000 -4.500000
25%    1.075000 -3.700000
50%    1.400000 -2.900000
75%    4.250000 -2.100000
max    7.100000 -1.300000
count     16
unique     3
top        a
freq       8
dtype: object
['a' 'b' 'c']
a    8
b    4
c    4
dtype: int64


In [81]:
# Usar value_counts en un DataFrame aplicant-ho a cada columna, per fer, per exemple, un histograma a posteriori

data = pd.DataFrame({"Qu1": [1, 3, 4, 3, 4], "Qu2": [2, 3, 1, 2, 3], "Qu3": [1, 5, 2, 4, 4]})
print(data)

compt = data.apply(pd.value_counts).fillna(0) # fillna: Si algun valor només està en una columna i per tant en les altres surt NaN ho omplirem per 0.

print(compt)

   Qu1  Qu2  Qu3
0    1    2    1
1    3    3    5
2    4    1    2
3    3    2    4
4    4    3    4
   Qu1  Qu2  Qu3
1  1.0  1.0  1.0
2  0.0  2.0  1.0
3  2.0  2.0  0.0
4  2.0  0.0  2.0
5  0.0  0.0  1.0


## Correlació i covariància

In [57]:
import pandas_datareader.data as web

In [62]:
all_data = {ticker: web.get_data_yahoo(ticker) for ticker in ["AAPL", "IBM", "MSFT", "GOOG"]}

price = pd.DataFrame({ticker: data["Adj Close"] for ticker, data in all_data.items()})

volume = pd.DataFrame({ticker: data["Volume"] for ticker, data in all_data.items()})

returns = price.pct_change() # Compute percent changes of the prices (it's a time series operation)

print(returns.tail())

                AAPL       IBM      MSFT      GOOG
Date                                              
2022-08-19 -0.015102 -0.005034 -0.013854 -0.022671
2022-08-22 -0.023029 -0.020380 -0.029355 -0.025821
2022-08-23 -0.002029 -0.005976 -0.004716 -0.002607
2022-08-24  0.001794 -0.011207 -0.002351 -0.000610
2022-08-25  0.007555  0.004916 -0.000073  0.013949


In [67]:
## Correlació/Covariància entre dues columnes, és a dir, dues Series, alineades per l'índex de les files

returns["MSFT"].corr(returns["IBM"])  # equivalent returns.MSFT.corr(returns.IBM) perquè són Python attributes
returns["MSFT"].cov(returns["IBM"])

# Si volem la taula relacional de totes
print(returns.corr())

# Si volem la correlació/covariància entre una columna(o fila) del DataFrame i una altra Serie o DataFrame, alineats pels índexs:

returns.corrwith(returns.IBM) # Correlació del DataFrame anterior amb la Serie IBM.

          AAPL       IBM      MSFT      GOOG
AAPL  1.000000  0.436557  0.760095  0.685282
IBM   0.436557  1.000000  0.476538  0.444079
MSFT  0.760095  0.476538  1.000000  0.787131
GOOG  0.685282  0.444079  0.787131  1.000000


AAPL    0.436557
IBM     1.000000
MSFT    0.476538
GOOG    0.444079
dtype: float64

# Reading data

### Cargar datos desde fuentes externas como bases de datos, ficheros, llamadas remotas a APIs... y convertirlo en DataFrame.

    - df = pd.read_csv("examples/ex1.csv")  (use comma as default delimiter)

    - read_table    (use tab "\t" as default delimiter)

    - read_excel    (necessary to install with "pip", "xlrd" and/or "openpyxl" packages to read xls and xlsx files respectively)

    - read_html

    - read_json     (JSON- JavaScript Object Notation)

    - read_sas

    - read_sql

    - read_stata

    - read_hdf      (HDF5 Format) - Intended for storing large quantities of scientific array data. HDF in HDF5 stands for hierarchical data format. Each HDF5 file can store multiple datasets and supporting metadata. It can be a good choice for working with very large datasets that don't fit into memory.

La función read tiene distintos argumentos, y de hecho alguna de ellas como read_csv tiene hasta 50!

### Los argumentos de "read" los podemos clasificar en:

    - Indexing: Can treat one or more columns as the returned DataFrame, and whether to get column names from the file, the user, or not at all.

        - header = None     # avisar que l'arxiu no té labels en les columnes

        - names = [" ", " "] # si l'arxiu no té labels en les columnes, els hi podem assignar

        - index_col = " "   # seleccionar una columna de l'arxiu per ser les labels de les files

    - Type inference and data conversion: This includes the user-defined value conversions and custom list of missing value markers.

        - pandas detecta expressions de l'arxiu tipus NA, NULL i els transforma en NaN. Si volem que consideri una expressió concreta com NaN

            - na_values = [" "]

            - o passar-li un diccionari que especifiqui per cada columna quines expressions han de ser NaN

                - sentinels = {"columna": ["", ""], "columna": [""]}

    - Datetime parsing: Includes combining capability, including combining date and time information spread over multiple columns into a single column in the result.

    - Iterating: Support for iterating over chunks of very large files.

        - To read a file in pieces, specify a chunksize as a number of rows. Then read_ returns a TextParser object that allows you to iterate over the parts of the file according to the chunksize.

    - Unclean data issues: Skipping rows or a footer, comments, or other minor things like numeric data with thousands separated by commas.

        - skiprows = [ ]


### Interactuando con Web APIs

Many websites have public APIs providing data feeds via JSON or some other format. One easy-to-use method is the "requests" library: (import requests)

### Interactuando con Databases

The SQLAlchemy project is a popular Python SQL toolkit that abstracts away many of the common differences between SQL databases. pandas has a read_sql function that enables you to read data easily from a general SQLAlchemy connection.

```python
import sqlalchemy as sqla

db = sqla.create_engine("direcció arxiu")

pd.read_sql("select * from name_table", db) 
```

# Export

### Exportar una Serie o un DataFrame a otros formatos como una lista, diccionario, DataFrame, csv, json...

    - obj.to_list()

    - obj.to_dict()

    - obj.to_frame()

    - obj.to_csv()

    - obj.to_json()

    - obj.to_excel()

    - obj.to_hdf

### Alguns dels arguments:

    - obj.to_csv("examples/out.csv", sep="|", na_rep="NULL", index=False)

        - direcció de guardar, separador, com indicar els valors NaN, no guardar els índexs de files

    - df.to_csv(header=False, columns=["a", "b"])

        - no guardar els índexs de les columnes, guardar només algunes columnes.

# Gestió de cadenes de text

Els methods de strings, com ara capitalize, contains, endswith, strip, replace, lower, upper, startswith... són també vàlids en pandas de la següent manera:

frame["column_name"].str.capitalize()
frame["column_name"].str.replace(" ", " ")

# Regular expressions

Junt amb els methods de strings és útil l'ús d'expressions regulars per poder afinar més en la selecció.

# Gestió de datetimes

És habitual haver de gestionar dades en format data, o data-hora. 

Vegem en un exercici algunes comandes útils:

"Partiendo del fichero oasis.csv que contiene información sobre la discografía del grupo de pop británico Oasis, se pide:

Cargue el fichero en un DataFrame.

Convierta la columna «album_release_date» a tipo «datetime».

Obtenga los nombres de los álbumes publicados entre 2000 y 2005."

Font: [aprendepython.es][Copyright © 2020, Sergio Delgado Quintero][license GPLV3]

In [106]:
df = pd.read_csv("oasis.csv") # Importar l'arxiu a DataFrame
df.head(5)

Unnamed: 0,album_release_date,album_release_year,danceability,energy,key,loudness,mode,speechiness,acousticness,instrumentalness,...,disc_number,duration_ms,explicit,is_local,track_name,track_number,album_name,key_name,mode_name,key_mode
0,2016-10-14,2016,0.297,0.861,11,-3.41,0,0.0448,0.000164,0.000211,...,1,463213,False,False,D'You Know What I Mean? - Remastered,1,Be Here Now(Remastered),B,minor,B minor
1,2016-10-14,2016,0.354,0.971,9,-1.897,0,0.0705,0.00249,0.00545,...,1,311333,False,False,My Big Mouth - Remastered,2,Be Here Now(Remastered),A,minor,A minor
2,2016-10-14,2016,0.3,0.879,0,-2.899,1,0.054,0.221,0.0332,...,1,430373,False,False,Magic Pie - Remastered,3,Be Here Now(Remastered),C,major,C major
3,2016-10-14,2016,0.197,0.821,7,-2.596,1,0.0412,0.0822,0.00301,...,1,355866,False,False,Stand by Me - Remastered,4,Be Here Now(Remastered),G,major,G major
4,2016-10-14,2016,0.342,0.977,2,-2.115,1,0.0571,0.00389,0.000393,...,1,262400,False,False,"I Hope, I Think, I Know - Remastered",5,Be Here Now(Remastered),D,major,D major


In [131]:
df["album_release_date"] = pd.to_datetime(df["album_release_date"]) # Convertir type de la columna a datetime.

print(df["album_release_date"].dtype)
df["album_release_date"].head()


datetime64[ns]


0   2016-10-14
1   2016-10-14
2   2016-10-14
3   2016-10-14
4   2016-10-14
Name: album_release_date, dtype: datetime64[ns]

In [139]:
album_names = df[(df["album_release_date"].dt.year <= 2005) & (df["album_release_date"].dt.year >= 2000)]["album_name"]

print(album_names.unique())

["Don't Believe The Truth" 'Heathen Chemistry' 'Familiar To Millions'
 'Familiar To Millions - The Highlights' 'Familiar To Millions (Live)'
 'Standing On The Shoulder Of Giants' 'Standing on the Shoulder of Giants'
 'Fmiliar to millions']


# Gestió de Categories

Las categorías pueden ser tanto datos numéricos como textuales, con la característica de tener un número discreto (relativamente pequeño) de elementos y, en ciertas ocasiones, un orden preestablecido. Ejemplos de variables categóricas son: género, idioma, meses del año, color de ojos, nivel de estudios, grupo sanguíneo, valoración, etc.

In [179]:
from pandas.api.types import CategoricalDtype
import datetime

# DataFrame creat en que cada llista és una columna
#data2 = {"Nom": ["Israel", "Judit", "Pau", "Clàudia"], "Data naixement": [1975, 1989, 1983, 2010], "Edat": [47, 33, 39, 12], "Gènere": ["Masculí", "Femení", "Masculí", "Femení"], "Professió": ["Informàtic", "Matemàtica", "Infermer", "Estudiant"], "Nivell d'estudis": ["FP", "Universitat", "FP", "Primària"]}
    
#df2 = pd.DataFrame(data=data)
#df2 = df2.set_index("Nom")
#print(df2)

# DataFrame creat en que cada llista és un registre
data = [["Israel", "17/09/1975", "Masculí", "Informàtic", "FP"], ["Judit", "12/04/1989", "Femení", "Matemàtica", "Universitat"], ["Pau", "23/05/1983", "Masculí", "Infermer", "FP"], ["Clàudia", "01/01/2010", "Femení", "Estudiant", "Primària"]]

df = pd.DataFrame(data=data, columns=["Name", "Birthday", "Gender", "Profesion", "Studies_level"])
df = df.set_index("Name")

df["Birthday"] = pd.to_datetime(df["Birthday"], format="%d/%m/%Y") # Columna data_naix a format datetime
df["Edat"] = pd.to_datetime("today").year - df["Birthday"].dt.year # Creem columna nova "Edat"

df["Gender"].astype("category")

levels = ("Primària", "ESO", "BAT", "FP", "Universitat")
cat_levels = CategoricalDtype(categories=levels, ordered=True)
df["Studies_level"] = df["Studies_level"].astype(cat_levels)

df.sort_values(by="Gender") # Ordena alfabèticament perquè no hem definit ordre en la categoria

df.sort_values(by=["Studies_level", "Edat"]) # Aquí sí ordena segons l'ordre establert, i els empatats, per edat.

Unnamed: 0_level_0,Birthday,Gender,Profesion,Studies_level,Edat
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Judit,1989-04-12,Femení,Matemàtica,Universitat,33
Clàudia,2010-01-01,Femení,Estudiant,Primària,12
Israel,1975-09-17,Masculí,Informàtic,FP,47
Pau,1983-05-23,Masculí,Infermer,FP,39


# Gestió de valors nuls

In [197]:
df = pd.DataFrame({"A": [1, 2, 3], "B": [4., np.nan, 6.], "C": [7., 8., np.nan]})

print(df)

df.isna() # Taula de True/False segons NaN o no.

df.dropna() # Elimina tots els registres que contenen algun NaN

df.fillna(0) # Omplir els NaN pel valor desitjat

df.interpolate() # Interpola per omplir els NaN

df.ffill() # Si hi ha valors NaN, els reemplaça pel valor de la fila prèvia o si axis="columns", pel de la columna prèvia. Vàlid també per exemple en un reindex 
# obj4.reindex(["California", "Oregon", "Ohio", "Utah"], method = "ffill") perquè poden quedar de sobte NaNs si hi ha columnes noves.
df.ffill(axis=1)

df.add(1, fill_value = 10) # fill_value = valor, si hi ha valors NaN hi posa aquest valor i després fa l'operació.

   A    B    C
0  1  4.0  7.0
1  2  NaN  8.0
2  3  6.0  NaN


Unnamed: 0,A,B,C
0,2,5.0,8.0
1,3,11.0,9.0
2,4,7.0,11.0


# Remodelar un DataFrame

## Format ample i format llarg

- Format ample: Cada fila té múltiples columnes que representen les variables d'una mateixa observació. És el format habitual d'un DataFrame.

- Format llarg: Cada fila té tres columnes, una que identifica l'observació, una que indica la variable i l'altra que indica el valor d'aquesta variable.

D'ample a llarg: df.melt(id_vars=" ")

De llarg a ample: df.pivot(index=" ", columns='variable', values='value')

## Apilar les dades

- Format índex multinivell: Agrupa per índex les columnes.

- Format índex senzill: Aplana el dataframe

In [211]:
df = pd.DataFrame({"Company": ["Apple", "Samsung", "Alphabet"], "Revenue": [274515, 200734, 182527], "Employees": [147000, 267937, 135301], "City": ["California", "Suwon", "California"], "Country": ["United States", "South Korea", "United States"]})
print(df)

# D'ample a llarg
df_long = df.melt(id_vars="Company")
df_long

# De llarg a ample
df_anch = df_long.pivot(index="Company", columns="variable", values="value")

df_anch = df.rename_axis(columns = None) # per treure el name attribute "variable" de les columnes
df_anch

    Company  Revenue  Employees        City        Country
0     Apple   274515     147000  California  United States
1   Samsung   200734     267937       Suwon    South Korea
2  Alphabet   182527     135301  California  United States


Unnamed: 0,Company,Revenue,Employees,City,Country
0,Apple,274515,147000,California,United States
1,Samsung,200734,267937,Suwon,South Korea
2,Alphabet,182527,135301,California,United States


In [219]:
# Format índex multinivell
df = pd.DataFrame({"Company": ["Apple", "Samsung", "Alphabet"], "Revenue": [274515, 200734, 182527], "Employees": [147000, 267937, 135301], "City": ["California", "Suwon", "California"], "Country": ["United States", "South Korea", "United States"]})

df.set_index("Company", inplace=True) # Apilar treballa sobre l'índex del DataFrame, considerem que sigui "Company"

df_stacked = df.stack()
print(df_stacked)
df_stacked.index

df_flat = df_stacked.unstack()
print(df_flat)

Company            
Apple     Revenue             274515
          Employees           147000
          City            California
          Country      United States
Samsung   Revenue             200734
          Employees           267937
          City                 Suwon
          Country        South Korea
Alphabet  Revenue             182527
          Employees           135301
          City            California
          Country      United States
dtype: object
         Revenue Employees        City        Country
Company                                              
Apple     274515    147000  California  United States
Samsung   200734    267937       Suwon    South Korea
Alphabet  182527    135301  California  United States


# Agrupar dades

In [261]:
df = pd.read_csv("democan.csv", index_col="Island")
df["Green"] = [False, False, False, False, True, True, True]
print(df)

df.groupby("Province").sum()
# df.groupby("Province")["Population"].sum() # Només una columna

df_sum = df.groupby(["Province", "Green"]).sum() # Dos agrupaments. És com format multiíndex.
df_sum
#df_flat = df_sum.unstack() # Podríem aplanar el DataFrame anterior.

df_vc = df.groupby("Province")["Green"].value_counts()
df_vc

# Diferents funcions per columna

df_multi = df.groupby("Province").agg({"Population": "mean", "Area": "sum" })
df_multi

               Population     Area Province  Green
Island                                            
Gran Canaria       855521  1560.10     LPGC  False
Tenerife           928604  2034.38     SCTF  False
La Palma            83458   708.32     SCTF  False
Lanzarote          155812   845.94     LPGC  False
La Gomera           21678   369.76     SCTF   True
El Hierro           11147   278.71     SCTF   True
Fuerteventura      119732  1659.00     LPGC   True


Unnamed: 0_level_0,Population,Area
Province,Unnamed: 1_level_1,Unnamed: 2_level_1
LPGC,377021.666667,4065.04
SCTF,261221.75,3391.17


In [284]:
df = pd.read_csv("democan.csv", index_col="Island")
print(df)

total_population = df["Population"].sum()

df_pop_by_prov = df.groupby("Province")["Population"].sum() # En seleccionar només la columna Population ara tenim una Serie
print(df_pop_by_prov)

df_pc = df_pop_by_prov.div(total_population)
print(df_pc)

pc_LPGC = df_pc["LPGC"] * 100
pc_SCTF = df_pc["SCTF"] * 100

print(f"El percentatge de població de cada provincia respecte el total és d'un {round(pc_LPGC)}% per Las Palmas de Gran Canaria i d'un {round(pc_SCTF)}% per Santa Cruz de Tenerife")

               Population     Area Province
Island                                     
Gran Canaria       855521  1560.10     LPGC
Tenerife           928604  2034.38     SCTF
La Palma            83458   708.32     SCTF
Lanzarote          155812   845.94     LPGC
La Gomera           21678   369.76     SCTF
El Hierro           11147   278.71     SCTF
Fuerteventura      119732  1659.00     LPGC
Province
LPGC    1131065
SCTF    1044887
Name: Population, dtype: int64
Province
LPGC    0.519802
SCTF    0.480198
Name: Population, dtype: float64
El percentatge de població de cada provincia respecte el total és d'un 52% per Las Palmas de Gran Canaria i d'un 48% per Santa Cruz de Tenerife
