SERIES EN PANDAS

In [1]:
import pandas as pd
import numpy as np

In [2]:
# a partir de una lista
lista = [10, 20, 30, 40, 50]
serie = pd.Series(lista)
print('serie a partir de una lista:')
print(serie)
print('\n Tipo de dato:', serie.dtype)
print('\n Tipo de dato:', type(serie))


serie a partir de una lista:
0    10
1    20
2    30
3    40
4    50
dtype: int64

 Tipo de dato: int64

 Tipo de dato: <class 'pandas.core.series.Series'>


In [3]:
# indices personalizados
serie_personalizada = pd.Series([10,20,30,40,50],index=['a', 'b', 'c', 'd', 'e'])
print('\nserie con indices personalizados:')
print(serie_personalizada)


serie con indices personalizados:
a    10
b    20
c    30
d    40
e    50
dtype: int64


In [4]:
# a partir de un diccionario
diccionario = {'a': 10, 'b': 20, 'c': 30, 'd': 40, 'e': 50}
serie_diccionario = pd.Series(diccionario)
print('\nserie a partir de un diccionario:')
print(serie_diccionario)    


serie a partir de un diccionario:
a    10
b    20
c    30
d    40
e    50
dtype: int64


ACCESO A DATOS DE UNA SERIE

In [5]:
# por posicion (como en numpy)
print(f'serie \n{serie_personalizada}\n\nprimer elemento: \n{serie[0]}')
print(f'\nElementos del 1 al 3: \n{serie[1:3]}')


serie 
a    10
b    20
c    30
d    40
e    50
dtype: int64

primer elemento: 
10

Elementos del 1 al 3: 
1    20
2    30
dtype: int64


In [6]:
#por etiquetas
print(f'\nElementos del 1 al 3: \n{serie_personalizada["b":"d"]}')



Elementos del 1 al 3: 
b    20
c    30
d    40
dtype: int64


OPERACIONES CON SERIES

In [7]:
# operaciones aritméticas
print(f'serie original:\n{serie}')
print(f'\n serie * 2: \n{serie * 2}')
print(f'\n serie + 5: \n{serie + 5}')

serie original:
0    10
1    20
2    30
3    40
4    50
dtype: int64

 serie * 2: 
0     20
1     40
2     60
3     80
4    100
dtype: int64

 serie + 5: 
0    15
1    25
2    35
3    45
4    55
dtype: int64


In [8]:
# operaciones entre series
serie_1 = pd.Series([1,2,3,4,5])
serie_2 = pd.Series([10,20,30,40,50])
print(f'\n serie_1:\n{serie_1}')
print(f'\n serie_2:\n{serie_2}')
print(f'\n serie 1 + serie 2:\n{serie_1 + serie_2}')



 serie_1:
0    1
1    2
2    3
3    4
4    5
dtype: int64

 serie_2:
0    10
1    20
2    30
3    40
4    50
dtype: int64

 serie 1 + serie 2:
0    11
1    22
2    33
3    44
4    55
dtype: int64


In [9]:
#alineamiento automático de índices
serie_a = pd.Series([1,2,3], index=['a', 'b', 'c'])
serie_b = pd.Series([10,20,30,40], index=['b', 'c', 'd','e'])
print(f'\n serie_a:\n{serie_a}')
print(f'\n serie_b:\n{serie_b}')
print(f'\n serie_a + serie_b:\n{serie_a + serie_b}')


 serie_a:
a    1
b    2
c    3
dtype: int64

 serie_b:
b    10
c    20
d    30
e    40
dtype: int64

 serie_a + serie_b:
a     NaN
b    12.0
c    23.0
d     NaN
e     NaN
dtype: float64


MÉTODOS ÚTILES PARA SERIES

In [11]:
# Estadísticas
print(f'\n media de serie {serie}: {serie.mean()}')
print(f'\n maximo {serie}: {serie.max()}')
print(f'\n minimo {serie}: {serie.min()}')
print(f'\n resumen{serie}: {serie.describe()}')



 media de serie 0    10
1    20
2    30
3    40
4    50
dtype: int64: 30.0

 maximo 0    10
1    20
2    30
3    40
4    50
dtype: int64: 50

 minimo 0    10
1    20
2    30
3    40
4    50
dtype: int64: 10

 resumen0    10
1    20
2    30
3    40
4    50
dtype: int64: count     5.000000
mean     30.000000
std      15.811388
min      10.000000
25%      20.000000
50%      30.000000
75%      40.000000
max      50.000000
dtype: float64


In [21]:
#valores nulos
serie_nan = pd.Series([1,2,np.nan,4,5, np.nan]) 
print(f'\n serie con NaN:\n{serie_nan}')
print(f'\n is null: \n{serie_nan.isnull()}')
print(f'\n is not null: \n{serie_nan.notnull()}')
print(f'\n suma de NaN: {serie_nan.isnull().sum()}')


 serie con NaN:
0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
5    NaN
dtype: float64

 is null: 
0    False
1    False
2     True
3    False
4    False
5     True
dtype: bool

 is not null: 
0     True
1     True
2    False
3     True
4     True
5    False
dtype: bool

 suma de NaN: 2


DATAFRAMES EN PANDAS

In [25]:
# creando un dataframe
data = {
    'nombre': ['Juan', 'Ana', 'Pedro', 'Maria'],
    'edad': [28, 22, 35, 30],
    'ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

df = pd.DataFrame(data)
print(f'\n DataFrame:\n{df}')



 DataFrame:
  nombre  edad     ciudad
0   Juan    28     Madrid
1    Ana    22  Barcelona
2  Pedro    35   Valencia
3  Maria    30    Sevilla


FORMAS DE CREACION DE DATAFRAMES

- lista de diccionarios
- array de numpy
- archivo CSV, Excel, SQL, etc

In [27]:
# Lista de diccionarios

lista_dict = [
    {'nombre': 'Juan', 'edad': 28, 'ciudad': 'Madrid'},
    {'nombre': 'Ana', 'edad': 22, 'ciudad': 'Barcelona'},
    {'nombre': 'Pedro', 'edad': 35, 'ciudad': 'Valencia'},
    {'nombre': 'Maria', 'edad': 30, 'ciudad': 'Sevilla'}
]

df_lista_dict = pd.DataFrame(lista_dict) 
print(f'\n DataFrame a partir de una lista de diccionarios:\n{df_lista_dict}')


 DataFrame a partir de una lista de diccionarios:
  nombre  edad     ciudad
0   Juan    28     Madrid
1    Ana    22  Barcelona
2  Pedro    35   Valencia
3  Maria    30    Sevilla


In [28]:
# diccionario de listas
diccionario_listas = {
    'nombre': ['Juan', 'Ana', 'Pedro', 'Maria'],
    'edad': [28, 22, 35, 30],
    'ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}
df_diccionario_listas = pd.DataFrame(diccionario_listas)
print(f'\n DataFrame a partir de un diccionario de listas:\n{df_diccionario_listas}')



 DataFrame a partir de un diccionario de listas:
  nombre  edad     ciudad
0   Juan    28     Madrid
1    Ana    22  Barcelona
2  Pedro    35   Valencia
3  Maria    30    Sevilla


In [31]:
# array de numpy
array_numpy = np.array([
    [25, 32, 27],
    [4, 5, 7],
    [28012, 28011, 28005]
])

df_array_numpy = pd.DataFrame(array_numpy, columns=['Edad', 'Calificación', 'Código Postal'])
print(f'\n DataFrame a partir de un array de numpy:\n{df_array_numpy}')


 DataFrame a partir de un array de numpy:
    Edad  Calificación  Código Postal
0     25            32             27
1      4             5              7
2  28012         28011          28005


In [34]:
# archivo CSV
df_csv = pd.read_csv('data_sales.csv')
print(f'\n DataFrame a partir de un archivo CSV:\n{df_csv.head()}')


 DataFrame a partir de un archivo CSV:
      Region  Producto  Ventas       Fecha
Norte      A       100      50  2023-01-01
Norte      B       150     100  2023-01-20
Sur        A       200     150  2023-01-25
Sur        B       250     200  2023-02-05
Este       A       300     250  2023-02-10


ACCEDER A LOS DATOS DE UN DATAFRAME

In [37]:
# seleccionar columnas
print(f'\n seleccionando una columna:\n{df["nombre"]}')
print(f'\n seleccionando varias columnas:\n{df[["nombre", "edad"]]}')
print(f'\n seleccionando una columna por su nombre:\n{df.nombre}')



 seleccionando una columna:
0     Juan
1      Ana
2    Pedro
3    Maria
Name: nombre, dtype: object

 seleccionando varias columnas:
  nombre  edad
0   Juan    28
1    Ana    22
2  Pedro    35
3  Maria    30

 seleccionando una columna por su nombre:
0     Juan
1      Ana
2    Pedro
3    Maria
Name: nombre, dtype: object


In [38]:
#seleccionar filas
