Series

In [1]:
import pandas as pd

s = pd.Series(['Matemáticas', 'Historia', 'Economía', 'Programación', 'Inglés'], dtype='string')
print(s)

0     Matemáticas
1        Historia
2        Economía
3    Programación
4          Inglés
dtype: string


In [8]:
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
print(s)
print(s.index)

Matemáticas     6.0
Economía        4.5
Programación    8.5
dtype: float64
Index(['Matemáticas', 'Economía', 'Programación'], dtype='object')


In [7]:
# atributos
s = pd.Series([1, 2, 2, 3, 3, 3, 4, 4, 4, 4])
print(s.size)
print(s.index)
print(s.dtype)

10
RangeIndex(start=0, stop=10, step=1)
int64


In [8]:
# acceso
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
print(s[1:3])
print(s["Economía"])
print(s[["Economía", "Matemáticas"]])

Economía        4.5
Programación    8.5
dtype: float64
4.5
Economía       4.5
Matemáticas    6.0
dtype: float64


In [12]:
import numpy as np
print(np.random.randint(low=0, high=10, size=(3,3)))
print((np.random.randint(1,100,10)).reshape(5,2))

[[5 9 8]
 [1 1 2]
 [4 3 6]]
[[33 50]
 [26 15]
 [ 6 77]
 [28 36]
 [28 54]]


In [22]:
# algunas funciones sobre las series
print(s.count()) #cuenta el total de valor que no sean Nan ni nulos
print(s.sum()) #suma todos los valores de la serie
print(s.cumsum()) #retorna el acumulado junto con sus indices en una serie
print(s.value_counts()) #devuelve una serie con indice VALOR y el total de COUNTs de cada uno de ellos en la serie en la que se lo aplica
print(s.min())
print(s.max())
print(s.mean())
print(s.std())
print(s.describe())

3
19.0
Matemáticas      6.0
Economía        10.5
Programación    19.0
dtype: float64
6.0    1
4.5    1
8.5    1
Name: count, dtype: int64
4.5
8.5
6.333333333333333
2.0207259421636903
count    3.000000
mean     6.333333
std      2.020726
min      4.500000
25%      5.250000
50%      6.000000
75%      7.250000
max      8.500000
dtype: float64


In [25]:
# Operaciones
s = pd.Series([1, 2, 3, 4])
print(s*2)
print(s%2)
s = pd.Series(['a', 'b', 'c'])
print(s*5)

0    2
1    4
2    6
3    8
dtype: int64
0    1
1    0
2    1
3    0
dtype: int64
0    aaaaa
1    bbbbb
2    ccccc
dtype: object


In [28]:
# aplicacion de funciones a cada elemento de la serie
from math import log
s = pd.Series([1, 2, 3, 4])
print(s.apply(log))
s = pd.Series(['a', 'b', 'c'])
print(s.apply(str.upper))


0    0.000000
1    0.693147
2    1.098612
3    1.386294
dtype: float64
0    A
1    B
2    C
dtype: object


In [29]:
# filtrado
s = pd.Series([1, 2, 3, 4])
print(s[s%2==0])

1    2
3    4
dtype: int64


In [32]:
# ordenamiento
# se puede ordenar por el indice o por los valores, para eso tenemos dos metodos
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})
print(s.sort_values())
print(s.sort_index(ascending=False))
print(s.sort_index(ascending=True))

Economía        4.5
Matemáticas     6.0
Programación    8.5
dtype: float64
Programación    8.5
Matemáticas     6.0
Economía        4.5
dtype: float64
Economía        4.5
Matemáticas     6.0
Programación    8.5
dtype: float64


In [36]:
# eliminacion de datos sin valores (Nan o None)
s = pd.Series(['a', 'b', None, 'c', np.NaN,  'd'])
print(s)
print(s.dropna()) #no modifica la serie original
print(s)

0       a
1       b
2    None
3       c
4     NaN
5       d
dtype: object
0    a
1    b
3    c
5    d
dtype: object
0       a
1       b
2    None
3       c
4     NaN
5       d
dtype: object


DATA FRAMES

In [40]:
# Creacion: Podemos hacerlo desde un diccionario o desde una lista

# Creacion ==> DataFrame(data=diccionario, index=filas, columns=columnas, dtype=tipos)
import pandas as pd
# a partir de un diccionario 
datos = {'nombre':['María', 'Luis', 'Carmen', 'Antonio'],
         'edad':[18, 22, 20, 21],
         'grado':['Economía', 'Medicina', 'Arquitectura', 'Economía'],
         'correo':['maria@gmail.com', 'luis@yahoo.es', 'carmen@gmail.com', 'antonio@gmail.com']
         }

df = pd.DataFrame(datos)
print(df)

    nombre  edad         grado             correo
0    María    18      Economía    maria@gmail.com
1     Luis    22      Medicina      luis@yahoo.es
2   Carmen    20  Arquitectura   carmen@gmail.com
3  Antonio    21      Economía  antonio@gmail.com


In [41]:
import pandas as pd
# a partir de un diccionario
s = pd.Series({'Matemáticas': 6.0,  'Economía': 4.5, 'Programación': 8.5})

df = pd.DataFrame(s)
print(df)
# a partir de una lista de diccionarios
df = pd.DataFrame([{'Nombre':'María', 'Edad':18}, {'Nombre':'Luis', 'Edad':22}, {'Nombre':'Carmen'}])
print(df)

                0
Matemáticas   6.0
Economía      4.5
Programación  8.5
   Nombre  Edad
0   María  18.0
1    Luis  22.0
2  Carmen   NaN


In [46]:
# a partir de un array
df = pd.DataFrame(np.random.randn(4, 3), columns=['a', 'b', 'c'])
print(df)
# a partir de un archivo csv
df = pd.read_csv('colesterol.csv', sep=';', decimal=',')
print(df)
print(df.head())

          a         b         c
0 -1.609206 -0.314961  1.090589
1 -0.390429  2.498034 -1.856576
2  1.352484  1.776360  0.915703
3 -0.905973 -0.840649 -0.640371
                             nombre  edad sexo   peso  altura  colesterol
0      José Luis Martínez Izquierdo    18    H   85.0    1.79       182.0
1                    Rosa Díaz Díaz    32    M   65.0    1.73       232.0
2             Javier García Sánchez    24    H    NaN    1.81       191.0
3               Carmen López Pinzón    35    M   65.0    1.70       200.0
4              Marisa López Collado    46    M   51.0    1.58       148.0
5                 Antonio Ruiz Cruz    68    H   66.0    1.74       249.0
6           Antonio Fernández Ocaña    51    H   62.0    1.72       276.0
7             Pilar Martín González    22    M   60.0    1.66         NaN
8              Pedro Gálvez Tenorio    35    H   90.0    1.94       241.0
9           Santiago Reillo Manzano    46    H   75.0    1.85       280.0
10            Macarena Álv

CLASE DE OBJETOS DATA FRAME

In [57]:
print(df.info())
print(df.shape)
print(df.size)
print(df.columns)
print(df.index)
print(df.dtypes)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   nombre      14 non-null     object 
 1   edad        14 non-null     int64  
 2   sexo        14 non-null     object 
 3   peso        13 non-null     float64
 4   altura      14 non-null     float64
 5   colesterol  13 non-null     float64
dtypes: float64(3), int64(1), object(2)
memory usage: 804.0+ bytes
None
(14, 6)
84
Index(['nombre', 'edad', 'sexo', 'peso', 'altura', 'colesterol'], dtype='object')
RangeIndex(start=0, stop=14, step=1)
nombre         object
edad            int64
sexo           object
peso          float64
altura        float64
colesterol    float64
dtype: object


In [59]:
print(df.head(3))
print(df.tail(3))

                         nombre  edad sexo  peso  altura  colesterol
0  José Luis Martínez Izquierdo    18    H  85.0    1.79       182.0
1                Rosa Díaz Díaz    32    M  65.0    1.73       232.0
2         Javier García Sánchez    24    H   NaN    1.81       191.0
                             nombre  edad sexo   peso  altura  colesterol
11       José María de la Guía Sanz    58    H   78.0    1.87       198.0
12  Miguel Angel Cuadrado Gutiérrez    27    H  109.0    1.98       210.0
13            Carolina Rubio Moreno    20    M   61.0    1.77       194.0


In [60]:
# renombrado de filas y columnas
print(df.rename(columns={'nombre':'nombre y apellidos', 'altura':'estatura'}, index={0:1000, 1:1001, 2:1002}))

                   nombre y apellidos  edad sexo   peso  estatura  colesterol
1000     José Luis Martínez Izquierdo    18    H   85.0      1.79       182.0
1001                   Rosa Díaz Díaz    32    M   65.0      1.73       232.0
1002            Javier García Sánchez    24    H    NaN      1.81       191.0
3                 Carmen López Pinzón    35    M   65.0      1.70       200.0
4                Marisa López Collado    46    M   51.0      1.58       148.0
5                   Antonio Ruiz Cruz    68    H   66.0      1.74       249.0
6             Antonio Fernández Ocaña    51    H   62.0      1.72       276.0
7               Pilar Martín González    22    M   60.0      1.66         NaN
8                Pedro Gálvez Tenorio    35    H   90.0      1.94       241.0
9             Santiago Reillo Manzano    46    H   75.0      1.85       280.0
10              Macarena Álvarez Luna    53    M   55.0      1.62       262.0
11         José María de la Guía Sanz    58    H   78.0      1.8

In [61]:
# reindexado: Devuelve un Data Frame con el orden indicado. Es como que ademas filtra el data set en el que lo aplica.
print(df.reindex(index=[4, 3, 1], columns=['nombre', 'tensión', 'colesterol']))

                 nombre  tensión  colesterol
4  Marisa López Collado      NaN       148.0
3   Carmen López Pinzón      NaN       200.0
1        Rosa Díaz Díaz      NaN       232.0


In [64]:
# acceso a los elementos tipo SLICING: SE USA ILOC
print(df.iloc[1, 3]) #retorna un elemento puntual
print(df.iloc[1, :2]) #retorna un df
print(df.iloc[1]) #retorna una serie con el registro consultado, serie el indice del df

65.0
nombre    Rosa Díaz Díaz
edad                  32
Name: 1, dtype: object
nombre        Rosa Díaz Díaz
edad                      32
sexo                       M
peso                    65.0
altura                  1.73
colesterol             232.0
Name: 1, dtype: object


In [68]:
# acceso a los elementos mediante nombres: SE USA LOC
print(df.loc[2, 'colesterol']) #consulta de un elemento puntual, celda
print()
print(df.loc[:3, ('colesterol','peso')]) #consulta de varias filas y varias columnas
print()
print(df['colesterol']) #consulta una columna entera


191.0

   colesterol  peso
0       182.0  85.0
1       232.0  65.0
2       191.0   NaN
3       200.0  65.0

0     182.0
1     232.0
2     191.0
3     200.0
4     148.0
5     249.0
6     276.0
7       NaN
8     241.0
9     280.0
10    262.0
11    198.0
12    210.0
13    194.0
Name: colesterol, dtype: float64


In [69]:
# operaciones con las columnas
df['diabetes'] = pd.Series([False, False, True, False, True])
print(df)

                             nombre  edad sexo   peso  altura  colesterol   
0      José Luis Martínez Izquierdo    18    H   85.0    1.79       182.0  \
1                    Rosa Díaz Díaz    32    M   65.0    1.73       232.0   
2             Javier García Sánchez    24    H    NaN    1.81       191.0   
3               Carmen López Pinzón    35    M   65.0    1.70       200.0   
4              Marisa López Collado    46    M   51.0    1.58       148.0   
5                 Antonio Ruiz Cruz    68    H   66.0    1.74       249.0   
6           Antonio Fernández Ocaña    51    H   62.0    1.72       276.0   
7             Pilar Martín González    22    M   60.0    1.66         NaN   
8              Pedro Gálvez Tenorio    35    H   90.0    1.94       241.0   
9           Santiago Reillo Manzano    46    H   75.0    1.85       280.0   
10            Macarena Álvarez Luna    53    M   55.0    1.62       262.0   
11       José María de la Guía Sanz    58    H   78.0    1.87       198.0   

In [70]:
print(df['altura']*100)
print()
print(df['sexo']=='M')


0     179.0
1     173.0
2     181.0
3     170.0
4     158.0
5     174.0
6     172.0
7     166.0
8     194.0
9     185.0
10    162.0
11    187.0
12    198.0
13    177.0
Name: altura, dtype: float64

0     False
1      True
2     False
3      True
4      True
5     False
6     False
7      True
8     False
9     False
10     True
11    False
12    False
13     True
Name: sexo, dtype: bool


In [71]:
# aplicando funciones con APPLY
print(df['altura'].apply(log))

0     0.582216
1     0.548121
2     0.593327
3     0.530628
4     0.457425
5     0.553885
6     0.542324
7     0.506818
8     0.662688
9     0.615186
10    0.482426
11    0.625938
12    0.683097
13    0.570980
Name: altura, dtype: float64


In [75]:
# conversion a datetime
df2 = pd.DataFrame({'Name': ['María', 'Carlos', 'Carmen'], 'Nacimiento':['05-03-2000', '20-05-2001', '10-12-1999']})
print(df2)
print()
print(pd.to_datetime(df2.Nacimiento, format = '%d-%m-%Y'))

     Name  Nacimiento
0   María  05-03-2000
1  Carlos  20-05-2001
2  Carmen  10-12-1999

0   2000-03-05
1   2001-05-20
2   1999-12-10
Name: Nacimiento, dtype: datetime64[ns]
