# Pandas

Es una libreria open source para el análisis y procesamiento de datos, que ademas facilita la creación de estructuras de datos de una forma muy sencilla.

Aprenderemos a leer archivos y transformarlos en estructuras de datos que nos van a facilitar mucho la vida a la hora de analizarlos.

# Archivos CSV (Local y web)

CSV : Comma separated values

In [1]:
import pandas as pd

In [2]:
raw_data = {'first_name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'],
        'last_name': ['Miller', 'Jacobson', ".", 'Milner', 'Cooze'],
        'age': [42, 52, 36, 24, 73],
        'preTestScore': [4, 24, 31, ".", "."],
        'postTestScore': ["25,000", "94,000", 57, 62, 70]}
df = pd.DataFrame(raw_data)
df

Unnamed: 0,age,first_name,last_name,postTestScore,preTestScore
0,42,Jasón,Miller,25000,4
1,52,Molly,Jacobson,94000,24
2,36,Tina,.,57,31
3,24,Jake,Milner,62,.
4,73,Amy,Cooze,70,.


# Guardar nuestros datos como csv

In [3]:
df.to_csv('EjemploPandas.csv')

# Leer un archivo local CSV

In [4]:
datos = pd.read_csv('EjemploPandas.csv')
datos

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf3 in position 3: invalid continuation byte

# Leer un CSV sin barra de titulos (Headers)

In [5]:
datos = pd.read_csv('EjemploPandas.csv', header=None)
datos

Unnamed: 0,0,1,2,3,4,5
0,,age,first_name,last_name,postTestScore,preTestScore
1,0.0,42,Jason,Miller,25000,4
2,1.0,52,Molly,Jacobson,94000,24
3,2.0,36,Tina,.,57,31
4,3.0,24,Jake,Milner,62,.
5,4.0,73,Amy,Cooze,70,.


In [6]:
datos = pd.read_csv('EjemploPandas.csv', header=None, skiprows = 1)
datos

Unnamed: 0,0,1,2,3,4,5
0,0,42,Jason,Miller,25000,4
1,1,52,Molly,Jacobson,94000,24
2,2,36,Tina,.,57,31
3,3,24,Jake,Milner,62,.
4,4,73,Amy,Cooze,70,.


In [7]:
datos = pd.read_csv('EjemploPandas.csv', index_col='UID',skiprows = 1, names=['UID', 'Nombre', 'Apellido', 'Edad', 'Puntaje 1', 'Puntaje 2'])
datos

Unnamed: 0_level_0,Nombre,Apellido,Edad,Puntaje 1,Puntaje 2
UID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,42,Jason,Miller,25000,4
1,52,Molly,Jacobson,94000,24
2,36,Tina,.,57,31
3,24,Jake,Milner,62,.
4,73,Amy,Cooze,70,.


# Leer desde la web

In [8]:
datos_web = pd.read_csv('http://winterolympicsmedals.com/medals.csv')

In [9]:
datos_web.head()

Unnamed: 0,Year,City,Sport,Discipline,NOC,Event,Event gender,Medal
0,1924,Chamonix,Skating,Figure skating,AUT,individual,M,Silver
1,1924,Chamonix,Skating,Figure skating,AUT,individual,W,Gold
2,1924,Chamonix,Skating,Figure skating,AUT,pairs,X,Gold
3,1924,Chamonix,Bobsleigh,Bobsleigh,BEL,four-man,M,Bronze
4,1924,Chamonix,Ice Hockey,Ice Hockey,CAN,ice hockey,M,Gold


# Leer archivos de excel

In [24]:
datos_excel = pd.read_excel(open('frutas.xlsx','rb'), sheetname='Hoja1')

In [25]:
datos_excel.head()

Unnamed: 0,fruit_label,fruit_name,fruit_subtype,mass,width,height,color_score
0,1,apple,granny_smith,192,8.4,7.3,0.55
1,1,apple,granny_smith,180,8.0,6.8,0.59
2,1,apple,granny_smith,176,7.4,7.2,0.6
3,2,mandarin,mandarin,86,6.2,4.7,0.8
4,2,mandarin,mandarin,84,6.0,4.6,0.79


In [26]:
datos_excel.columns

Index(['fruit_label', 'fruit_name', 'fruit_subtype', 'mass', 'width', 'height',
       'color_score'],
      dtype='object')

In [27]:
datos_excel.columns[3]

'mass'

In [28]:
#vamos a imprimir todos las masas de las frutas
for i in datos_excel.index:
    print("Peso de la fruta {} = {}".format(i, datos_excel['mass'][i]))

Peso de la fruta 0 = 192
Peso de la fruta 1 = 180
Peso de la fruta 2 = 176
Peso de la fruta 3 = 86
Peso de la fruta 4 = 84
Peso de la fruta 5 = 80
Peso de la fruta 6 = 80
Peso de la fruta 7 = 76
Peso de la fruta 8 = 178
Peso de la fruta 9 = 172
Peso de la fruta 10 = 166
Peso de la fruta 11 = 172
Peso de la fruta 12 = 154
Peso de la fruta 13 = 164
Peso de la fruta 14 = 152
Peso de la fruta 15 = 156
Peso de la fruta 16 = 156
Peso de la fruta 17 = 168
Peso de la fruta 18 = 162
Peso de la fruta 19 = 162
Peso de la fruta 20 = 160
Peso de la fruta 21 = 156
Peso de la fruta 22 = 140
Peso de la fruta 23 = 170
Peso de la fruta 24 = 342
Peso de la fruta 25 = 356
Peso de la fruta 26 = 362
Peso de la fruta 27 = 204
Peso de la fruta 28 = 140
Peso de la fruta 29 = 160
Peso de la fruta 30 = 158
Peso de la fruta 31 = 210
Peso de la fruta 32 = 164
Peso de la fruta 33 = 190
Peso de la fruta 34 = 142
Peso de la fruta 35 = 150
Peso de la fruta 36 = 160
Peso de la fruta 37 = 154
Peso de la fruta 38 = 158
P