# Pandas

In [1]:
import pandas as pd

# 1. Series

In [3]:
# Similar a un array 1d
data = pd.Series([0.25,0.5,0.75,1])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [4]:
x = [0.25,0.5,0.75,1]
x

[0.25, 0.5, 0.75, 1]

In [5]:
data = pd.Series([1,2,3,4], index = ['a','b','z','kev'])
data

a      1
b      2
z      3
kev    4
dtype: int64

In [6]:
# leer un valor
data['b']

2

In [9]:
# Asignar un nuevo valor
data['f'] = 99
data

a       1
b       2
z       3
kev     4
f      99
dtype: int64

In [10]:
# Actualizar un nuevo valor
data['f'] = 77
data

a       1
b       2
z       3
kev     4
f      77
dtype: int64

# 2. DataFrame

In [12]:
df = pd.DataFrame()
df

In [13]:
df = pd.DataFrame([ [1,2,3],[5,6,7] ], columns = ["col_1", "col_2","col_3"])
df

Unnamed: 0,col_1,col_2,col_3
0,1,2,3
1,5,6,7


In [14]:
pd.DataFrame([ [1,2,3],[5,6,7] ])

Unnamed: 0,0,1,2
0,1,2,3
1,5,6,7


### Carga del archivo

In [16]:
df = pd.read_csv("datos/example_df.csv", encoding = 'latin-1')
df

Unnamed: 0,numero,nombre_apellido,sexo
0,123,Juan Pérez,M
1,321,Lucía Alvarez,F
2,15,Carlos Hale,M
3,10,Sofía Cilar,F


In [18]:
df.shape

(4, 3)

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
numero             4 non-null int64
nombre_apellido    4 non-null object
sexo               4 non-null object
dtypes: int64(1), object(2)
memory usage: 176.0+ bytes


In [26]:
import numpy as np
# Breve Analisis Descriptivo de los Datos
df.describe(include = [np.int64,object,float])

Unnamed: 0,numero,nombre_apellido,sexo
count,4.0,4,4
unique,,4,2
top,,Lucía Alvarez,F
freq,,1,2
mean,117.25,,
std,145.493127,,
min,10.0,,
25%,13.75,,
50%,69.0,,
75%,172.5,,


In [28]:
df.head(2)

Unnamed: 0,numero,nombre_apellido,sexo
0,123,Juan Pérez,M
1,321,Lucía Alvarez,F


In [29]:
# Acceder a los datos
df['nombre_apellido']

0       Juan Pérez
1    Lucía Alvarez
2      Carlos Hale
3      Sofía Cilar
Name: nombre_apellido, dtype: object

In [30]:
df[ ['nombre_apellido','sexo'] ] 

Unnamed: 0,nombre_apellido,sexo
0,Juan Pérez,M
1,Lucía Alvarez,F
2,Carlos Hale,M
3,Sofía Cilar,F


In [32]:
df["nombre_apellido"] == "Carlos Hale"

0    False
1    False
2     True
3    False
Name: nombre_apellido, dtype: bool

In [34]:
df.loc[df["nombre_apellido"] == "Carlos Hale", ]

Unnamed: 0,numero,nombre_apellido,sexo
2,15,Carlos Hale,M


In [36]:
df.loc[df["nombre_apellido"] == "Carlos Hale", 'numero'] = 25
df

Unnamed: 0,numero,nombre_apellido,sexo
0,123,Juan Pérez,M
1,321,Lucía Alvarez,F
2,25,Carlos Hale,M
3,10,Sofía Cilar,F


In [39]:
# Ordenar el dataframe
df = df.sort_values('nombre_apellido')

In [40]:
df

Unnamed: 0,numero,nombre_apellido,sexo
2,25,Carlos Hale,M
0,123,Juan Pérez,M
1,321,Lucía Alvarez,F
3,10,Sofía Cilar,F


In [41]:
# reordenar index
df.reset_index(drop = True, inplace = True)
df

Unnamed: 0,numero,nombre_apellido,sexo
0,25,Carlos Hale,M
1,123,Juan Pérez,M
2,321,Lucía Alvarez,F
3,10,Sofía Cilar,F


In [42]:
# Sumarizar valores por cierta variable
df.groupby(by = 'sexo')['numero'].mean()

sexo
F    165.5
M     74.0
Name: numero, dtype: float64

In [43]:
df.groupby(by = 'sexo')['nombre_apellido'].count()

sexo
F    2
M    2
Name: nombre_apellido, dtype: int64

In [46]:
# Aplicar varios o diferentes summarizaciones a distintos campos
df.groupby(by = 'sexo', as_index= False).agg({'numero': 'mean',
                             'nombre_apellido': 'count'})

Unnamed: 0,sexo,numero,nombre_apellido
0,F,165.5,2
1,M,74.0,2


In [47]:
df.ix[0:2,].groupby(by = 'sexo', as_index= False).agg({'numero': 'mean',
                             'nombre_apellido': 'count'})

Unnamed: 0,sexo,numero,nombre_apellido
0,F,321,1
1,M,74,2


In [51]:
df.rename(columns = {'numero':'num'}, inplace = True)

In [52]:
df

Unnamed: 0,num,nombre_apellido,sexo
0,25,Carlos Hale,M
1,123,Juan Pérez,M
2,321,Lucía Alvarez,F
3,10,Sofía Cilar,F
