# Estructura de datos en Pandas
## Series y Data Frame

In [2]:
#importar librerias

import numpy as np
import pandas as pd

## Las Series

#### La serie es una matriz etiquetada unidimensional capaz de contener cualquier tipo de datos (integers, strings, floating point numbers, Python objects, etc). Las etiquetas de los ejes se conocen colectivamente como el índice. Para que se más fácil de entender, una Serie es un registro de filas (rows) de una base de datos

In [3]:
# Para construir una serie, debemos utilizar la estructura: s = pd.Series(data, index=index)
# Data en este caso puede ser: un diccionario, una tabla de datos, un nrray, un escalar

### Serie desde un "nrray"

In [5]:
# Si los datos son un ndarray, el índice debe tener la misma longitud que los datos. 
# Si no se pasa ningún índice, se creará uno con valores númericos

In [6]:
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])

In [7]:
s

a   -0.873581
b    0.212376
c   -0.586822
d   -0.561992
e    1.297139
dtype: float64

In [8]:
s.index #Podemos ver el índice de la serie (si es un ndarray) utilizando el método: serie.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [9]:
pd.Series(np.random.randn(5)) #En este ejemplo, se crearán índices númericos de forma automática

0    0.886380
1    1.514235
2    0.849940
3   -2.900079
4   -0.630388
dtype: float64

### Serie desde un diccionario

In [14]:
# Cuando los datos son un diccionario y no se pasa un índice, 
# el índice de la serie se ordenará según el orden de inserción de los elementos del diccionario

d = {"b": 1, "a": 0, "c": 2}

In [15]:
pd.Series(d) #Para ver los índices, debemos utilizar la función: pd.Series()

b    1
a    0
c    2
dtype: int64

### Serie desde un valor escalar

In [16]:
# Si los datos son un valor escalar, se debe proporcionar un índice. 
# El valor se repetirá para coincidir con la longitud del índice.

In [17]:
pd.Series(5.0, index=["a", "b", "c", "d", "e"])

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64

### Una diferencia clave entre Series y ndarray es que las operaciones entre Series alinean automáticamente los datos según la etiqueta.

In [18]:
s[1:] + s[:-1]

a         NaN
b    0.424753
c   -1.173644
d   -1.123984
e         NaN
dtype: float64

## Los Data Frame

#### Los Data Frame son una estructura de datos etiquetada bidimensional con columnas de tipos potencialmente diferentes. Puede pensar en ello como una hoja de cálculo o una tabla SQL, o un diccionario de objetos. Generalmente es el objeto pandas más utilizado. Junto con los datos, puede pasar opcionalmente argumentos de índice (etiquetas de fila) y columnas (etiquetas de columna). Si pasas un índice y/o columnas, estás garantizando el índice y/o columnas del DataFrame resultante

#### La función es pd.DataFrame()

### Data Frame desde un diccionario

In [20]:
d = {
    "one": pd.Series([1.0, 2.0, 3.0], index=["a", "b", "c"]),
    "two": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]),
}


In [23]:
df = pd.DataFrame(d)

In [24]:
df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [25]:
pd.DataFrame(d, index=["d", "b", "a"])

Unnamed: 0,one,two
d,,4.0
b,2.0,2.0
a,1.0,1.0


In [27]:
pd.DataFrame(d, index=["d", "b", "a"], columns=["two", "three"]) #Renombrar columnas

Unnamed: 0,two,three
d,4.0,
b,2.0,
a,1.0,


### Data Frame desde un diccionario que contenga ndarrays o listas

In [28]:
# Los ndarrays deben tener todos la misma longitud. Si se pasa un índice, claramente 
# también debe tener la misma longitud que las matrices. Si no se pasa ningún índice, 
# el resultado será range (n), donde n es la longitud de la matriz

In [29]:
d = {"one": [1.0, 2.0, 3.0, 4.0], "two": [4.0, 3.0, 2.0, 1.0]}

In [30]:
pd.DataFrame(d)

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


In [32]:
pd.DataFrame(d, index=["a", "b", "c", "d"]) # Se sobrescribe el índice, pasa a ser letras en lugar de números

Unnamed: 0,one,two
a,1.0,4.0
b,2.0,3.0
c,3.0,2.0
d,4.0,1.0


### Data Frame desde una matriz estructurada o de registros

In [33]:
data = np.zeros((2,), dtype=[("A", "i4"), ("B", "f4"), ("C", "a10")])

In [34]:
data[:] = [(1, 2.0, "Hello"), (2, 3.0, "World")]

In [35]:
pd.DataFrame(data)

Unnamed: 0,A,B,C
0,1,2.0,b'Hello'
1,2,3.0,b'World'


In [36]:
pd.DataFrame(data, index=["first", "second"]) #Se sustituyen los nombres de los índices

Unnamed: 0,A,B,C
first,1,2.0,b'Hello'
second,2,3.0,b'World'


In [37]:
pd.DataFrame(data, columns=["C", "A", "B"])

Unnamed: 0,C,A,B
0,b'Hello',1,2.0
1,b'World',2,3.0


### Data Frame desde una lista de diccionarios

In [38]:
data2 = [{"a": 1, "b": 2}, {"a": 5, "b": 10, "c": 20}]

In [39]:
data2

[{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]

In [40]:
pd.DataFrame(data2)

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


In [42]:
pd.DataFrame(data2, columns=["a", "b"]) #Selección de las columas a y b

Unnamed: 0,a,b
0,1,2
1,5,10


### Data Frame de una tupla que contenga un diccionario

In [43]:
pd.DataFrame(
    {
        ("a", "b"): {("A", "B"): 1, ("A", "C"): 2},
        ("a", "a"): {("A", "C"): 3, ("A", "B"): 4},
        ("a", "c"): {("A", "B"): 5, ("A", "C"): 6},
        ("b", "a"): {("A", "C"): 7, ("A", "B"): 8},
        ("b", "b"): {("A", "D"): 9, ("A", "B"): 10},
    }
)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,a,a,b,b
Unnamed: 0_level_1,Unnamed: 1_level_1,b,a,c,a,b
A,B,1.0,4.0,5.0,8.0,10.0
A,C,2.0,3.0,6.0,7.0,
A,D,,,,,9.0


## Seleccionar, sumar y borrar elementos de un data frame

#### Puede tratar un DataFrame semánticamente como un dicccionario de objetos en Serie indexados. Obtener, configurar y eliminar columnas funciona con la misma sintaxis que las operaciones de diccionarios, típicas de python

### Selección por etiqueta/nombre de la columna

In [45]:
df["one"] #Selección de una sola columna

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

In [48]:
df["three"] = df["one"] * df["two"] #Selección de varias columnas

In [51]:
df["flag"] = df["one"] > 2 #Selección de columnas que cumplan con una condición lógica

In [66]:
df

Unnamed: 0,one,flag
a,1.0,False
b,2.0,False
c,3.0,True
d,,False


### Para borrar una columna, utilizamos el método "del"

In [1]:
#del df["two"]

In [56]:
df

Unnamed: 0,one,three,flag
a,1.0,1.0,False
b,2.0,4.0,False
c,3.0,9.0,True
d,,,False


### Para estallar/separar una columna del resto utilizamos la función df.pop()

In [2]:
#three = df.pop("three")

In [68]:
three

a    1.0
b    4.0
c    9.0
d    NaN
Name: three, dtype: float64

In [69]:
df

Unnamed: 0,one,flag
a,1.0,False
b,2.0,False
c,3.0,True
d,,False


### Para insertar una columna, debemos utilizar la función: df.insert()

In [70]:
# Por defecto, la columna nueva se coloca al final, sin embargo, podemos definir la posición, como un primer argumento
# de la función
df.insert(1, "bar", df["one"])

In [71]:
df

Unnamed: 0,one,bar,flag
a,1.0,1.0,False
b,2.0,2.0,False
c,3.0,3.0,True
d,,,False


### Para crear una nueva columna, debemos utilizar la función: assign() 

In [83]:
# La función assign(), funciona como mutate() de dplyr, porque permite crear una nueva, columna a partir de existentes
# assign() siempre devuelve una copia de los datos, dejando intacto el DataFrame original.
iris = pd.read_csv("iris.csv")

In [84]:
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [87]:
iris.assign(sepal_ratio=iris["sepal_width"] / iris["sepal_length"]).head() #Creamos una nueva variable "sepal_ratio"

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,sepal_ratio
0,5.1,3.5,1.4,0.2,setosa,0.686275
1,4.9,3.0,1.4,0.2,setosa,0.612245
2,4.7,3.2,1.3,0.2,setosa,0.680851
3,4.6,3.1,1.5,0.2,setosa,0.673913
4,5.0,3.6,1.4,0.2,setosa,0.72


## Indexación / selección

In [88]:
# Operation                            Syntax      Result

# Select column                        df[col]     Series

# Select row by label            df.loc[label]     Series

# Select row by integer location  df.iloc[loc]     Series

# Slice rows                          df[5:10]    DataFrame

# Select rows by boolean vector   df[bool_vec]    DataFrame

In [95]:
# La selección de filas, por ejemplo, devuelve una Serie cuyo índice (primera columna) son las columnas del DataFrame:

df.loc["b"] #Seleccion por etiqueta

one       2.0
bar       2.0
flag    False
Name: b, dtype: object

In [96]:
df.iloc[2] #Seleccion por indice

one      3.0
bar      3.0
flag    True
Name: c, dtype: object

### Alineación de datos y aritmética

In [97]:
# La alineación de datos entre los objetos DataFrame se alinea automáticamente tanto en las columnas 
# como en el índice (etiquetas de fila). Nuevamente, el objeto resultante tendrá la unión de las etiquetas de columna y fila

In [98]:
df = pd.DataFrame(np.random.randn(10, 4), columns=["A", "B", "C", "D"])

In [99]:
df2 = pd.DataFrame(np.random.randn(7, 3), columns=["A", "B", "C"])

In [100]:
df + df2 #Sumar los dos data frame, seria el equivalente a un FULL JOIN

Unnamed: 0,A,B,C,D
0,-2.92147,-1.739926,1.372919,
1,1.370121,-2.99058,0.551586,
2,-0.81269,-3.615328,-1.016043,
3,-1.209824,-0.569281,-1.667614,
4,-0.678937,-3.567042,0.222398,
5,-0.250039,-1.577711,-1.880488,
6,-0.447531,-1.389705,-0.810296,
7,,,,
8,,,,
9,,,,


In [101]:
# Al realizar una operación entre DataFrame y Series, el comportamiento predeterminado 
# es alinear el índice de Series en las columnas de DataFrame, transmitiendolo así por filas.

In [102]:
df - df.iloc[0]

Unnamed: 0,A,B,C,D
0,0.0,0.0,0.0,0.0
1,1.108753,-0.78006,-1.047033,0.154443
2,2.008834,-1.040284,-1.236323,0.002523
3,1.369823,0.068977,-2.070792,-1.695194
4,-0.179928,-1.592326,-1.261937,-2.878066
5,-0.08118,0.594999,-0.664795,-2.022674
6,-0.100571,0.301727,-1.474818,0.994191
7,1.971868,0.12839,1.142556,0.333084
8,0.841337,2.592142,-1.443594,-0.359248
9,0.395275,-0.141703,-0.110551,-1.742045


In [103]:
# Los operadores boolean funcionan igual

In [104]:
df1 = pd.DataFrame({"a": [1, 0, 1], "b": [0, 1, 1]}, dtype=bool)

In [105]:
df2 = pd.DataFrame({"a": [0, 1, 1], "b": [1, 1, 0]}, dtype=bool)

In [106]:
df1 & df2

Unnamed: 0,a,b
0,False,False
1,False,True
2,True,False


## Transponer

In [107]:
# Para transponer (filas pasan a ser columnas), acceda al atributo T (también la función de transposición), similar a un ndarray

In [110]:
# only show the first 5 rows
df[:5].T

Unnamed: 0,0,1,2,3,4
A,-0.742484,0.366269,1.26635,0.627339,-0.922412
B,-0.806154,-1.586214,-1.846438,-0.737177,-2.39848
C,1.260945,0.213913,0.024622,-0.809846,-0.000992
D,1.211841,1.366283,1.214363,-0.483354,-1.666226


## Interoperabilidad de DataFrame con funciones NumPy

In [111]:
# Los elementos NumPy ufuncs (log, exp, sqrt, …) y varias otras funciones NumPy se pueden usar sin problemas 
# en Series y DataFrame, asumiendo que los datos dentro son numéricos

In [112]:
np.exp(df) #Exponencial

Unnamed: 0,A,B,C,D
0,0.47593,0.446572,3.528756,3.359662
1,1.442344,0.204699,1.238514,3.920752
2,3.54788,0.157798,1.024928,3.36815
3,1.872622,0.478463,0.444926,0.616712
4,0.397559,0.090856,0.999008,0.188959
5,0.438821,0.809649,1.815118,0.444487
6,0.430394,0.603852,0.807452,9.079608
7,3.419124,0.507751,11.061844,4.687618
8,1.103904,5.965467,0.833061,2.34572
9,0.706658,0.387571,3.15944,0.588484


In [113]:
np.asarray(df) #Transforma la tabla en un array

array([[-7.42483696e-01, -8.06154198e-01,  1.26094546e+00,
         1.21184050e+00],
       [ 3.66269379e-01, -1.58621400e+00,  2.13912546e-01,
         1.36628336e+00],
       [ 1.26635019e+00, -1.84643795e+00,  2.46220246e-02,
         1.21436349e+00],
       [ 6.27339344e-01, -7.37177199e-01, -8.09846444e-01,
        -4.83353940e-01],
       [-9.22411726e-01, -2.39847972e+00, -9.92020479e-04,
        -1.66622578e+00],
       [-8.23663578e-01, -2.11154712e-01,  5.96150592e-01,
        -8.10833649e-01],
       [-8.43054201e-01, -5.04426916e-01, -2.13872060e-01,
         2.20603106e+00],
       [ 1.22938449e+00, -6.77764398e-01,  2.40350173e+00,
         1.54492463e+00],
       [ 9.88532655e-02,  1.78598739e+00, -1.82648311e-01,
         8.52592412e-01],
       [-3.47209154e-01, -9.47857419e-01,  1.15039482e+00,
        -5.30204895e-01]])

## Pantalla de la consola

In [114]:
# Los DataFrames muy grandes se truncarán para mostrarlos en la consola. También puede obtener un resumen utilizando: info()

In [116]:
fifa = pd.read_csv("fifa_dplyr.csv")

In [117]:
fifa

Unnamed: 0,sofifa_id,short_name,long_name,age,dob,height_cm,weight_kg,nationality,club_name,league_name,overall,player_positions
0,158023,L. Messi,Lionel Andrés Messi Cuccittini,32,1987-06-24,170,72,Argentina,FC Barcelona,Spain Primera Division,94,"RW, CF, ST"
1,20801,Cristiano Ronaldo,Cristiano Ronaldo dos Santos Aveiro,34,1985-02-05,187,83,Portugal,Juventus,Italian Serie A,93,"ST, LW"
2,190871,Neymar Jr,Neymar da Silva Santos Júnior,27,1992-02-05,175,68,Brazil,Paris Saint-Germain,French Ligue 1,92,"LW, CAM"
3,200389,J. Oblak,Jan Oblak,26,1993-01-07,188,87,Slovenia,Atlético Madrid,Spain Primera Division,91,GK
4,183277,E. Hazard,Eden Hazard,28,1991-01-07,175,74,Belgium,Real Madrid,Spain Primera Division,91,"LW, CF"
...,...,...,...,...,...,...,...,...,...,...,...,...
18478,245006,Shao Shuai,邵帅,22,1997-03-10,186,79,China PR,Beijing Renhe FC,Chinese Super League,48,CB
18479,250995,Xiao Mingjie,肖明杰,22,1997-01-01,177,66,China PR,Shanghai SIPG FC,Chinese Super League,48,CB
18480,252332,Zhang Wei,张威,19,2000-05-16,186,75,China PR,Hebei China Fortune FC,Chinese Super League,48,CM
18481,251110,Wang Haijian,汪海健,18,2000-08-02,185,74,China PR,Shanghai Greenland Shenhua FC,Chinese Super League,48,CM


In [119]:
fifa.info() #Muestra el tipo de dato, y un resumen de la tabla

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18483 entries, 0 to 18482
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   sofifa_id         18483 non-null  int64 
 1   short_name        18483 non-null  object
 2   long_name         18483 non-null  object
 3   age               18483 non-null  int64 
 4   dob               18483 non-null  object
 5   height_cm         18483 non-null  int64 
 6   weight_kg         18483 non-null  int64 
 7   nationality       18483 non-null  object
 8   club_name         18243 non-null  object
 9   league_name       18243 non-null  object
 10  overall           18483 non-null  int64 
 11  player_positions  18483 non-null  object
dtypes: int64(5), object(7)
memory usage: 1.7+ MB


In [120]:
# Al utilizar to_string devolverá una representación de cadena del DataFrame en forma tabular, 
# aunque no siempre se ajustará al ancho de la consola.

In [123]:
print(fifa.iloc[-20:, :6].to_string())

       sofifa_id     short_name                          long_name  age         dob  height_cm
18463     240927     L. Collins                      Lewis Collins   18  2001-05-09        178
18464     248182     H. Sveijer                     Hannes Sveijer   17  2002-04-28        185
18465     237599  A. De Angelis              Alessandro De Angelis   21  1998-03-13        174
18466     238521      H. Shirai                              白井 陽斗   19  1999-10-23        170
18467     246694      S. Callan                        Sean Callan   19  1999-12-14        182
18468     251124     F. Nevarez  Francisco Javier Nevarez Pulgarin   18  2000-12-03        178
18469     240917   Zhang Yufeng                                张宇峰   21  1998-01-05        178
18470     241828      L. Offord                        Luke Offord   19  1999-11-19        170
18471     245029      Wang Peng                                 王鹏   21  1997-11-16        175
18472     247002        J. Ryan                   

In [124]:
# Los data frame anchos se imprimirán en varias filas de forma predeterminada:

In [125]:
pd.DataFrame(np.random.randn(3, 12))

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,0.58164,0.047951,-0.819108,0.779445,-0.097253,-0.139577,-0.252837,0.835529,0.154719,-0.642982,0.27237,-1.099282
1,1.081916,1.125287,-0.136315,-1.348817,0.932845,-0.759313,-2.222761,0.021796,0.070391,0.611404,-1.710571,2.246968
2,1.260028,0.465819,-1.774237,0.837325,2.105005,-0.891582,-0.641256,0.232648,-0.651893,-0.692832,-1.697543,-0.682986


In [126]:
# Puede cambiar cuánto imprimir en una sola fila configurando la opción display.width

In [132]:
pd.set_option("display.width", 40) 

In [135]:
# Puede ajustar el ancho máximo de letras de las columnas individuales configurando display.max_colwidth

In [136]:
datafile = {
    "filename": ["filename_01", "filename_02"],
    "path": [
        "media/user_name/storage/folder_01/filename_01",
        "media/user_name/storage/folder_02/filename_02",
    ],
}


In [137]:
pd.set_option("display.max_colwidth", 30)

In [138]:
pd.DataFrame(datafile)

Unnamed: 0,filename,path
0,filename_01,media/user_name/storage/fo...
1,filename_02,media/user_name/storage/fo...
