## Pandas 
- Es un libreria especializada en manejo y analisis de estructuras de datos 
- Crea dos nuevas estructuras de datos: Series y los Dataframes 
- Permite la lectura de archivos estructurados (CSV, excel, sql, html, xml, json) 
- Permite indexar y manipular los conjuntos de datos. 




Estructuras de pandas
- Serie: de una dimensión 
- Dataframe: dos dimensiones (tablas) 
- Panel: estructura de tres dimensiones (cubo) 


### Series en Pandas
- Estructuras como los arrays, solo que tendrán un índice diferente a ubicación 

- ARRAY: 0              1           2            3   
- notas: 5              3           4            5   
- SERIE: Matematicas    fisica      Quimica      Arte

In [25]:
## lista de materias 
import pandas as pd # alias mas comun 

## pd.Series(data = lista, index = indices, dtype = tipo) 

materias = ['Arte', 'Programación', 'Matemáticas', 'Física', 'Química']
notas = [2, 2, 2.8, 3.2, 3.6]

serieMaterias = pd.Series(materias)
print(serieMaterias)

0            Arte
1    Programación
2     Matemáticas
3          Física
4         Química
dtype: object


In [26]:
serieNotas=pd.Series(data = notas, index = materias)
print(serieNotas)

Arte            2.0
Programación    2.0
Matemáticas     2.8
Física          3.2
Química         3.6
dtype: float64


In [4]:
## Atributos de una serie 

# número de elementos
serieNotas.size

5

In [10]:
# indices de la serie
mates = serieNotas.index
print(mates)

Index(['Arte', 'Programación', 'Matemáticas', 'Física', 'Química'], dtype='object')


In [11]:
print(mates[3])

Física


In [12]:
sm = serieMaterias.index #indice en rango 

for i in sm:
    print(i)

0
1
2
3
4


In [13]:
serieNotas.dtype

dtype('float64')

In [15]:
serieMaterias.dtype

dtype('O')

### Acceder a los elementos de una Serie

In [18]:
## Acceder por el indice o por la posicion 
serieNotas[2] #indexacion por la posicion 
serieMaterias[2] #indexacion por la posicion 

'Matemáticas'

In [19]:
serieNotas['Matemáticas']

2.8

In [20]:
serieNotas[['Matemáticas', 'Arte']]

Matemáticas    2.8
Arte           3.5
dtype: float64

### Atributos de la serie 

In [22]:
# contar el numero de elementos 
serieNotas.count()

5

In [23]:
serieNotas.sum()

17.1

In [27]:
serieNotas.value_counts() #obtener la frecuencia de cada elemento de la serie 

2.0    2
3.2    1
2.8    1
3.6    1
dtype: int64

In [28]:
serieNotas.min()

2.0

In [29]:
serieNotas.max()

3.6

In [31]:
serieNotas.describe() #estadísticas descriptivas 

count    5.000000
mean     2.720000
std      0.715542
min      2.000000
25%      2.000000
50%      2.800000
75%      3.200000
max      3.600000
dtype: float64

In [33]:
serieNotas**2

Arte             4.00
Programación     4.00
Matemáticas      7.84
Física          10.24
Química         12.96
dtype: float64

###### Aplicando funciones a las series

In [35]:
## apply - aplicar un procedimiento a cada elemento de la serie 
import math
## Quiero hallar la raiz cuadrada de mis notas 
serieNotas.apply(math.sqrt)


Arte            1.414214
Programación    1.414214
Matemáticas     1.673320
Física          1.788854
Química         1.897367
dtype: float64

In [40]:
serieMaterias.apply(str.upper)

0            ARTE
1    PROGRAMACIÓN
2     MATEMÁTICAS
3          FÍSICA
4         QUÍMICA
dtype: object

In [42]:
serieNotas[serieNotas>3] # filtrando la serie

Física     3.2
Química    3.6
dtype: float64

In [48]:
serieMaterias = serieMaterias.sort_values()
serieMaterias

0            Arte
3          Física
2     Matemáticas
1    Programación
4         Química
dtype: object

### Dataframes

- Son estructuras de datos de dos dimensiones, con doble indice 
- Filas - Columnas 


In [78]:
# Creación de un dataframe 
    # de un diccionario 
    # de una lista de listas 
    # Array 
    # Cargando un archivo externo 

[[2, 2], [3, 2], [6, 8], [5, 0]]

In [92]:
dataframe0 = pd.DataFrame([[2,2,2,3], [3,2,6,9] , [6,8,8,5] , [5,0,5,9]],index = [25, 36, 65 , 68], columns = ['Casos', 'Edades', 'Col3', 'Co04'])
dataframe0

Unnamed: 0,Casos,Edades,Col3,Co04
25,2,2,2,3
36,3,2,6,9
65,6,8,8,5
68,5,0,5,9


In [52]:
## Creando desde un diccionario 
import pandas as pd 

datos = {
    'Nombre': ['Valentina', 'Verónica', 'Iván', 'Andrés']  , 
    'Edad': [19, 23, 22, 28],
    'Semestre': [1 , 3, 2, 9]    
}

print(datos)

{'Nombre': ['Valentina', 'Verónica', 'Iván', 'Andrés'], 'Edad': [19, 23, 22, 28], 'Semestre': [1, 3, 2, 9]}


In [54]:
dataframe1 = pd.DataFrame(datos)
dataframe1

Unnamed: 0,Nombre,Edad,Semestre
0,Valentina,19,1
1,Verónica,23,3
2,Iván,22,2
3,Andrés,28,9


In [97]:
import numpy as np
vv = np.random.random([4,3])

dataframe2 = pd.DataFrame(vv, columns=['c1', 'c2', 'c3'])
dataframe2

Unnamed: 0,c1,c2,c3
0,0.411355,0.45907,0.291822
1,0.17364,0.184873,0.357972
2,0.583035,0.449552,0.705104
3,0.504786,0.741154,0.498679


##### Importar dataframes desde archivos CSV y Excel 


In [100]:
## CSV archivo separado por comas ------- 
import pandas as pd 

ozono = pd.read_csv('ozone.csv')
ozono

Unnamed: 0,Month,Day_of_month,Day_of_week,ozone_reading,pressure_height,Wind_speed,Humidity,Temperature_Sandburg,Temperature_ElMonte,Inversion_base_height,Pressure_gradient,Inversion_temperature,Visibility
0,1,1,4,3.01,5480.0,8,20.0,,,5000.0,-15.0,30.56,200
1,1,2,5,3.20,5660.0,6,,38.0,,,-14.0,,300
2,1,3,6,2.70,5710.0,4,28.0,40.0,,2693.0,-25.0,47.66,250
3,1,4,7,5.18,5700.0,3,37.0,45.0,,590.0,-24.0,55.04,100
4,1,5,1,5.34,5760.0,3,51.0,54.0,45.32,1450.0,25.0,57.02,60
...,...,...,...,...,...,...,...,...,...,...,...,...,...
361,12,27,1,1.74,5730.0,3,53.0,51.0,49.28,111.0,-14.0,72.50,200
362,12,28,2,2.69,5690.0,3,23.0,51.0,49.28,5000.0,-36.0,51.26,70
363,12,29,3,5.05,5650.0,3,61.0,50.0,46.58,3704.0,18.0,46.94,40
364,12,30,4,0.72,5550.0,4,85.0,39.0,41.00,5000.0,8.0,39.92,100


In [101]:
videojuegos = pd.read_excel('videojuegos.xlsx')
videojuegos

Unnamed: 0,Nombre,Plataforma,Año,Genero,Editorial,Ventas NA,Ventas EU,Ventas JP,Ventas Otros,Ventas Global
0,Wii Sports,Wii,2006,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,Super Mario Bros.,NES,1985,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,Mario Kart Wii,Wii,2008,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,Wii Sports Resort,Wii,2009,Sports,Nintendo,15.75,11.01,3.28,2.96,33.00
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,Nintendo,11.27,8.89,10.22,1.00,31.37
...,...,...,...,...,...,...,...,...,...,...
16321,Farming 2017 - The Simulation,PS4,2016,Simulation,UIG Entertainment,0.00,0.01,0.00,0.00,0.01
16322,Rugby Challenge 3,XOne,2016,Sports,Alternative Software,0.00,0.01,0.00,0.00,0.01
16323,Chou Ezaru wa Akai Hana: Koi wa Tsuki ni Shiru...,PSV,2016,Action,dramatic create,0.00,0.00,0.01,0.00,0.01
16324,Phantasy Star Online 2 Episode 4: Deluxe Package,PSV,2017,Role-Playing,Sega,0.00,0.00,0.01,0.00,0.01


In [103]:
videojuegos = pd.read_excel('videojuegos.xlsx', sheet_name='total')
videojuegos

## pd.to_csv 
## pd.to_excel 

Unnamed: 0,Nombre,Plataforma,Año,Genero,Editorial,Ventas Global
0,Wii Sports,Wii,2006,Sports,Nintendo,82.74
1,Super Mario Bros.,NES,1985,Platform,Nintendo,40.24
2,Mario Kart Wii,Wii,2008,Racing,Nintendo,35.82
3,Wii Sports Resort,Wii,2009,Sports,Nintendo,33.00
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,Nintendo,31.37
...,...,...,...,...,...,...
16321,Farming 2017 - The Simulation,PS4,2016,Simulation,UIG Entertainment,0.01
16322,Rugby Challenge 3,XOne,2016,Sports,Alternative Software,0.01
16323,Chou Ezaru wa Akai Hana: Koi wa Tsuki ni Shiru...,PSV,2016,Action,dramatic create,0.01
16324,Phantasy Star Online 2 Episode 4: Deluxe Package,PSV,2017,Role-Playing,Sega,0.01


In [104]:
# Atributos de un Dataframe 
# Información general del dataframe 
videojuegos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16326 entries, 0 to 16325
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Nombre         16326 non-null  object 
 1   Plataforma     16326 non-null  object 
 2   Año            16326 non-null  int64  
 3   Genero         16326 non-null  object 
 4   Editorial      16290 non-null  object 
 5   Ventas Global  16326 non-null  float64
dtypes: float64(1), int64(1), object(4)
memory usage: 765.4+ KB


In [105]:
videojuegos.shape

(16326, 6)

In [106]:
videojuegos.size

97956

In [108]:
videojuegos.columns

Index(['Nombre', 'Plataforma', 'Año', 'Genero', 'Editorial', 'Ventas Global'], dtype='object')

In [109]:
videojuegos.index

RangeIndex(start=0, stop=16326, step=1)

In [115]:
### 
videojuegos.head(3)

Unnamed: 0,Nombre,Plataforma,Año,Genero,Editorial,Ventas Global
0,Wii Sports,Wii,2006,Sports,Nintendo,82.74
1,Super Mario Bros.,NES,1985,Platform,Nintendo,40.24
2,Mario Kart Wii,Wii,2008,Racing,Nintendo,35.82


In [116]:
videojuegos.tail(3)

Unnamed: 0,Nombre,Plataforma,Año,Genero,Editorial,Ventas Global
16323,Chou Ezaru wa Akai Hana: Koi wa Tsuki ni Shiru...,PSV,2016,Action,dramatic create,0.01
16324,Phantasy Star Online 2 Episode 4: Deluxe Package,PSV,2017,Role-Playing,Sega,0.01
16325,Brothers Conflict: Precious Baby,PSV,2017,Action,Idea Factory,0.01


### Acceder a los elementos de un dataframe 

In [119]:
# Mediante posiciones y mediante nombres 

## iloc[i , j]
videojuegos.iloc[1,3]

'Platform'

In [121]:
## toda la fila
videojuegos.iloc[1]

Nombre           Super Mario Bros.
Plataforma                     NES
Año                           1985
Genero                    Platform
Editorial                 Nintendo
Ventas Global                40.24
Name: 1, dtype: object

In [123]:
## toda la columna
videojuegos.iloc[:,3]

0              Sports
1            Platform
2              Racing
3              Sports
4        Role-Playing
             ...     
16321      Simulation
16322          Sports
16323          Action
16324    Role-Playing
16325          Action
Name: Genero, Length: 16326, dtype: object

In [132]:
# slice de indices y columnas 
videojuegos.iloc[20:30,0:3]

Unnamed: 0,Nombre,Plataforma,Año
20,Pokemon Diamond/Pokemon Pearl,DS,2006
21,Super Mario Land,GB,1989
22,Super Mario Bros. 3,NES,1988
23,Grand Theft Auto V,X360,2013
24,Grand Theft Auto: Vice City,PS2,2002
25,Pokemon Ruby/Pokemon Sapphire,GBA,2002
26,Pokemon Black/Pokemon White,DS,2010
27,Brain Age 2: More Training in Minutes a Day,DS,2005
28,Gran Turismo 3: A-Spec,PS2,2001
29,Call of Duty: Modern Warfare 3,X360,2011


In [139]:
# indexar por el nombre de la columna 
videojuegos.loc[20:30,['Plataforma', 'Nombre' ]]

Unnamed: 0,Plataforma,Nombre
20,DS,Pokemon Diamond/Pokemon Pearl
21,GB,Super Mario Land
22,NES,Super Mario Bros. 3
23,X360,Grand Theft Auto V
24,PS2,Grand Theft Auto: Vice City
25,GBA,Pokemon Ruby/Pokemon Sapphire
26,DS,Pokemon Black/Pokemon White
27,DS,Brain Age 2: More Training in Minutes a Day
28,PS2,Gran Turismo 3: A-Spec
29,X360,Call of Duty: Modern Warfare 3


In [140]:
videojuegos.Plataforma

0         Wii
1         NES
2         Wii
3         Wii
4          GB
         ... 
16321     PS4
16322    XOne
16323     PSV
16324     PSV
16325     PSV
Name: Plataforma, Length: 16326, dtype: object

In [151]:
vid = videojuegos.head(3)
vid

Unnamed: 0,Nombre,Plataforma,Año,Genero,Editorial,Ventas Global
0,Wii Sports,Wii,2006,Sports,Nintendo,82.74
1,Super Mario Bros.,NES,1985,Platform,Nintendo,40.24
2,Mario Kart Wii,Wii,2008,Racing,Nintendo,35.82


In [155]:
superm = videojuegos.iloc[6]
print(superm)

Nombre           New Super Mario Bros.
Plataforma                          DS
Año                               2006
Genero                        Platform
Editorial                     Nintendo
Ventas Global                    30.01
Name: 6, dtype: object


In [168]:
notas = [2]
serieNotas=pd.Series(data = notas, index = [20])

vid.append(serieNotas, ignore_index=True)
vid = vid.append(superm)
# NaN - Not a number - data inválido 

In [169]:
vid.drop(2)

Unnamed: 0,Nombre,Plataforma,Año,Genero,Editorial,Ventas Global
0,Wii Sports,Wii,2006,Sports,Nintendo,82.74
1,Super Mario Bros.,NES,1985,Platform,Nintendo,40.24
6,New Super Mario Bros.,DS,2006,Platform,Nintendo,30.01


In [172]:
videojuegos.head()

Unnamed: 0,Nombre,Plataforma,Año,Genero,Editorial,Ventas Global
0,Wii Sports,Wii,2006,Sports,Nintendo,82.74
1,Super Mario Bros.,NES,1985,Platform,Nintendo,40.24
2,Mario Kart Wii,Wii,2008,Racing,Nintendo,35.82
3,Wii Sports Resort,Wii,2009,Sports,Nintendo,33.0
4,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,Nintendo,31.37


In [173]:
videojuegos[videojuegos['Plataforma'] == 'Wii']

Unnamed: 0,Nombre,Plataforma,Año,Genero,Editorial,Ventas Global
0,Wii Sports,Wii,2006,Sports,Nintendo,82.74
2,Mario Kart Wii,Wii,2008,Racing,Nintendo,35.82
3,Wii Sports Resort,Wii,2009,Sports,Nintendo,33.00
7,Wii Play,Wii,2006,Misc,Nintendo,29.02
8,New Super Mario Bros. Wii,Wii,2009,Platform,Nintendo,28.62
...,...,...,...,...,...,...
16129,Aladdin Magic Racer,Wii,2011,Racing,Big Ben Interactive,0.01
16143,Fit & Fun,Wii,2011,Sports,Unknown,0.01
16146,Captain Morgane and the Golden Turtle,Wii,2012,Adventure,Reef Entertainment,0.01
16151,Turbo Trainz,Wii,2012,Racing,Mastertronic,0.01
