In [70]:
import numpy as np
import pandas as pd

# Carga de Series

In [71]:
# Recuperar datos en series. Una dimension
ls_data = [3.0, 6.0, 9.0, 12.0, 15.0, 18.0]
ls_index = ['enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio']
series = pd.Series(ls_data, index=ls_index)

In [72]:
# Obtención de valores
print("Está enero en la Serie: %s" % ('enero' in series))
#print("Valores y claves: %s" % list(series.items()))
#series['julio'] = 21.0
#print("Nuevo valor: %s" % series['julio'])
#print("Valores que están entre 10 y 20: \n%s" % series[(series > 10) & (series < 20)])
#series['enero':'mayo']

Está enero en la Serie: True


# Carga de datos en DataFrame

In [73]:
# Crear en función de un diccionario compuesto por las columnas
data = {"datos":[6, 20, 6, 9, 22, 14, 11, 21, 19, 1], "nombres":['A', 'B', 'C', 'D', 'F', 'G', 'H', 'I', 'J', 'K']}
df = pd.DataFrame(data)
df

Unnamed: 0,datos,nombres
0,6,A
1,20,B
2,6,C
3,9,D
4,22,F
5,14,G
6,11,H
7,21,I
8,19,J
9,1,K


In [74]:
# Crear en función una lista de registros
# se puede definir el tipo de las variables. Float
data = [['Juan',10],['Maria',12],['Jose',13]]
df = pd.DataFrame(data,columns=['Name','Age'],dtype=int)
df

Unnamed: 0,Name,Age
0,Juan,10
1,Maria,12
2,Jose,13


In [75]:
# Carga de una lista de diccionarios que serían equivalentes a los registros
d1 = {'ciudad':'Valencia', 'temperatura':10}
d2 = {'ciudad':'Barcelona', 'temperatura':8}
d3 = {'ciudad':'Valencia', 'temperatura':9}
d4 = {'ciudad':'Madrid', 'temperatura':10, 'humedad':80}
d5 = {'ciudad':'Sevilla', 'temperatura':15, 'humedad':50, 'co2':6}
d6 = {'ciudad':'Valencia', 'temperatura':10, 'humedad':90, 'co2':10}
ls_data = [d1, d2, d3, d4, d5, d6]
df_data = pd.DataFrame(ls_data)

In [76]:
# Como acceder a las columnas. Estilo atributo o declarando
df_data['ciudad']
df_data.ciudad
# Recomndado aceder a las columnas con el estilo diccionario.

0     Valencia
1    Barcelona
2     Valencia
3       Madrid
4      Sevilla
5     Valencia
Name: ciudad, dtype: object

In [77]:
# crear una columna a partir de una operación. temperatura en Kelvin
df_data['temp_kelvin'] = df_data['temperatura'] + 273.15
df_data

Unnamed: 0,ciudad,temperatura,humedad,co2,temp_kelvin
0,Valencia,10,,,283.15
1,Barcelona,8,,,281.15
2,Valencia,9,,,282.15
3,Madrid,10,80.0,,283.15
4,Sevilla,15,50.0,6.0,288.15
5,Valencia,10,90.0,10.0,283.15


In [78]:
# acceso a los valores del df
df_data.values

array([['Valencia', 10, nan, nan, 283.15],
       ['Barcelona', 8, nan, nan, 281.15],
       ['Valencia', 9, nan, nan, 282.15],
       ['Madrid', 10, 80.0, nan, 283.15],
       ['Sevilla', 15, 50.0, 6.0, 288.15],
       ['Valencia', 10, 90.0, 10.0, 283.15]], dtype=object)

In [79]:
# hacer una transposición del df
df_data.T

Unnamed: 0,0,1,2,3,4,5
ciudad,Valencia,Barcelona,Valencia,Madrid,Sevilla,Valencia
temperatura,10,8,9,10,15,10
humedad,,,,80,50,90
co2,,,,,6,10
temp_kelvin,283.15,281.15,282.15,283.15,288.15,283.15


# Cargar desde un fichero

In [80]:
# se pueden realizar cargas de csv, json, excel, incluso de base de datos
df_cities = pd.read_csv('./cities.csv', delimiter='|')
df_cities.describe()

Unnamed: 0,City,State short,State full,County,City alias
count,63210,63210,63210,63203,63210
unique,18856,61,61,1931,39890
top,San Juan,PA,Pennsylvania,WASHINGTON,Queens
freq,289,4198,4198,766,38


In [81]:
df_cities['City']

0         Holtsville
1         Holtsville
2           Adjuntas
3           Adjuntas
4           Adjuntas
            ...     
63206        Klawock
63207     Metlakatla
63208    Point Baker
63209      Ward Cove
63210       Wrangell
Name: City, Length: 63211, dtype: object

# Exportar DataFrame

In [82]:
# exportar en csv
df_data.to_csv('./datos.csv', sep=';', encoding='utf-8')

# Recuperación de datos

In [83]:
# Aceso a un valor concreto por la posición
print(df_data.iloc[3, 2])
# Aceso a todos los valores hasta un índice por enteros
print(df_data.iloc[:3,:4])
# Acceso a datos de manera explícita. Si el índice tuviera strings se deberían de poner los strings
print(df_data.loc[:2, :'humedad'])
# Combinación entre enteros y literal
print(df_data.loc[:3, :'humedad'])

80.0
      ciudad  temperatura  humedad  co2
0   Valencia           10      NaN  NaN
1  Barcelona            8      NaN  NaN
2   Valencia            9      NaN  NaN
      ciudad  temperatura  humedad
0   Valencia           10      NaN
1  Barcelona            8      NaN
2   Valencia            9      NaN
      ciudad  temperatura  humedad
0   Valencia           10      NaN
1  Barcelona            8      NaN
2   Valencia            9      NaN
3     Madrid           10     80.0


In [84]:
# Convención para recuperación de información. Explícito.
# Esto se le llama enmascarar o masking
df_data.loc[df_data['temperatura'] < 10, ['ciudad', 'temperatura']]

Unnamed: 0,ciudad,temperatura
1,Barcelona,8
2,Valencia,9


In [85]:
# para modificar, de manera implícita. Modificar humedad en el registro de Valencia
df_data.iloc[0, 2] = 75
df_data

Unnamed: 0,ciudad,temperatura,humedad,co2,temp_kelvin
0,Valencia,10,75.0,,283.15
1,Barcelona,8,,,281.15
2,Valencia,9,,,282.15
3,Madrid,10,80.0,,283.15
4,Sevilla,15,50.0,6.0,288.15
5,Valencia,10,90.0,10.0,283.15


In [86]:
# el último valor no se añade. En este caso el 3.
df_data[1:3]

Unnamed: 0,ciudad,temperatura,humedad,co2,temp_kelvin
1,Barcelona,8,,,281.15
2,Valencia,9,,,282.15


In [87]:
# Obtención de una columna
df_data.humedad

0    75.0
1     NaN
2     NaN
3    80.0
4    50.0
5    90.0
Name: humedad, dtype: float64

In [88]:
df_data["humedad"]

0    75.0
1     NaN
2     NaN
3    80.0
4    50.0
5    90.0
Name: humedad, dtype: float64

# Operaciones

In [89]:
# Carga de datos
data = [['Juan',10],['Maria',12],['Jose',13], ['Juan',30], ['Jose',20], ['Pablo', 5]]
df = pd.DataFrame(data,columns=['Name','Age'],dtype=int)
df

Unnamed: 0,Name,Age
0,Juan,10
1,Maria,12
2,Jose,13
3,Juan,30
4,Jose,20
5,Pablo,5


In [90]:
# Eliminación de columnas
data = df.drop(["Name", "Age"], axis=1, inplace=False)
data

0
1
2
3
4
5


In [91]:
# Eliminación según los índices
data = df.drop([3, 4], axis=0, inplace=False)
data

Unnamed: 0,Name,Age
0,Juan,10
1,Maria,12
2,Jose,13
5,Pablo,5


In [92]:
# Definición de una columna para establecer el índice
df2 = df.set_index(keys="Name", drop=True, append=False, inplace=False, verify_integrity=False)
# Eliminamos todos los Juan y Jose
df2.drop(["Juan", "Jose"], axis=0, inplace=True)
df2

Unnamed: 0_level_0,Age
Name,Unnamed: 1_level_1
Maria,12
Pablo,5


In [93]:
# Mantenemos la columna de nombres fuera de índice
df2["Name"] = df2.index
# Se establece un nuevo conjunto de índices
df2.set_index(keys=pd.Series(range(0, df2.shape[0])), drop=False)

Unnamed: 0,Age,Name
0,12,Maria
1,5,Pablo


In [94]:
# Eliminación de los duplicados en una columna definida
df2 = df.drop_duplicates(subset="Name", keep='first', inplace=False)
df

Unnamed: 0,Name,Age
0,Juan,10
1,Maria,12
2,Jose,13
3,Juan,30
4,Jose,20
5,Pablo,5


In [95]:
# Renombrar las columnas con un diccionario de mapeo
data = df.rename(columns={"Name": "Nombre", "Age": "Años"})
data

Unnamed: 0,Nombre,Años
0,Juan,10
1,Maria,12
2,Jose,13
3,Juan,30
4,Jose,20
5,Pablo,5
