# Introducción a Pandas
---
[Pandas](https://pandas.pydata.org/) Es una librería de python para análisis de datos estructuradas en columnas y renglones, muy popular para manipulación, análisis y preprocesamiento en columnas, ideal para manipular y analizar datos de entrada. Además, _Pandas_ se integra muy bien con otras librerías de Ciencia de Datos, de manera que usualmente los algoritmos de machine learning reciben como entradas las dos principales estructuras de _Pandas_: los DataFrames y las Series


## Objetos de _Pandas_

In [5]:
import numpy as np
import pandas as pd

### Series

Las series son equivalentes a los vectores de NumPy.  
Pueden crerse a partir de listas o vectores.

In [4]:
colores_lista = ['rojo', 'verde', 'azul', 'amarillo']
colores_array = np.array(colores_lista)
colores_array

array(['rojo', 'verde', 'azul', 'amarillo'], dtype='<U8')

In [5]:
colores_series = pd.Series(colores_lista)
colores_series

0        rojo
1       verde
2        azul
3    amarillo
dtype: object

In [6]:
porcentajes_array = np.array([0.2, 0.4, 0.8, 1])
porcentajes_series = pd.Series(porcentajes_array)
porcentajes_series

0    0.2
1    0.4
2    0.8
3    1.0
dtype: float64

Una serie consta de los valores y de los índdices y se puede acceder a ellos con los atributos _values_ e _index_.  
Los valores son un vector de NumPy.

In [7]:
porcentajes_series.values

array([0.2, 0.4, 0.8, 1. ])

Como en un vector de NumPy, usamos los índices para obtener un subconjunto de elementos.

In [8]:
porcentajes_series[1]

np.float64(0.4)

In [9]:
porcentajes_series[1:3]

1    0.4
2    0.8
dtype: float64

Los objetos _Series_ tienen la  ventaja sobre los  vectores de NumPy que permite definir índices asociados a los  valores, y  
pueden ser de cualquier tipo por ejemplo.

In [12]:
nivel_color = pd.Series(porcentajes_array, index = colores_lista)
nivel_color

rojo        0.2
verde       0.4
azul        0.8
amarillo    1.0
dtype: float64

In [13]:
nivel_color.values

array([0.2, 0.4, 0.8, 1. ])

In [14]:
nivel_color[2]

  nivel_color[2]


np.float64(0.8)

In [15]:
nivel_color["azul"]

np.float64(0.8)

In [16]:
type(nivel_color.values)

numpy.ndarray

In [19]:
# Diccionario con la población en 2020 para estados seleccionados.

poblacion_dict  = {'Aguascalientes': 1425607,
'Guanajuato': 6166934,
'Jalisco': 8348151,
'CDMX': 9209944,
'Querétaro': 2368467}

pob = pd.Series(poblacion_dict)
pob

Aguascalientes    1425607
Guanajuato        6166934
Jalisco           8348151
CDMX              9209944
Querétaro         2368467
dtype: int64

In [20]:
pob['CDMX']

np.int64(9209944)

In [21]:
pob['Aguascalientes':'CDMX']

Aguascalientes    1425607
Guanajuato        6166934
Jalisco           8348151
CDMX              9209944
dtype: int64

In [22]:
pob.iloc[3]

np.int64(9209944)

Lo anterior no es posible con los diccionarios:

In [23]:
poblacion_dict['Aguascalientes': 'CDMX']

TypeError: unhashable type: 'slice'

### Más ejemplos de _Series_.

In [24]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

In [25]:
pd.Series(14, index  = [150, 220, 380])

150    14
220    14
380    14
dtype: int64

In [26]:
pd.Series({2: 'a', 1: 'b', 3:'c'})

2    a
1    b
3    c
dtype: object

### DataFrame

Igual que las _Series_, un _DataFrame_ toma las cualidades de una matriz de NumPy y también de los diccionarios,  
con ventajas adicionales.

In [2]:
muertes_dict = {'Goku': 3,
'Vegeta': 1,
'Gohan': 1,
'Trunks': 0,
'Broly': 0}

In [3]:
ki_dict = {'Goku': 4.7,
'Vegeta': 4.5,
'Gohan': 4.2,
'Trunks': 4.0,
'Broly': 6.2}

In [8]:
saiyans = pd.DataFrame({'ki': ki_dict, 'muertes': muertes_dict})
saiyans

Unnamed: 0,ki,muertes
Goku,4.7,3
Vegeta,4.5,1
Gohan,4.2,1
Trunks,4.0,0
Broly,6.2,0


Un DataFrame tiene además de los atributos _value_ e _index_ el atributo _columns_ que es un índice que contiene las etiquetas de cada columna.

In [9]:
saiyans.values

array([[4.7, 3. ],
       [4.5, 1. ],
       [4.2, 1. ],
       [4. , 0. ],
       [6.2, 0. ]])

In [10]:
saiyans.columns

Index(['ki', 'muertes'], dtype='object')

En los Dataframes se puede llamar una columna por su nombre:

In [11]:
saiyans['ki']

Goku      4.7
Vegeta    4.5
Gohan     4.2
Trunks    4.0
Broly     6.2
Name: ki, dtype: float64

Sin embargo, no se pueden llamar ínides como las Series:

In [12]:
saiyans['Vegeta']

KeyError: 'Vegeta'

Al igual que en los diccionarios, podemos agregar nuevos elementos, en este caso, Series,  
 y al igual que en NumPy podemos hacer operación de vectores sin nececidad de recurrir a ciclos For:

In [14]:
saiyans['ki_ss'] = saiyans['ki']*1.3
saiyans

Unnamed: 0,ki,muertes,ki_ss
Goku,4.7,3,6.11
Vegeta,4.5,1,5.85
Gohan,4.2,1,5.46
Trunks,4.0,0,5.2
Broly,6.2,0,8.06


### Creación de Dataframes a partir de distintos objetos:

Desde una Serie:

In [16]:
ki = pd.Series(ki_dict)
ki

Goku      4.7
Vegeta    4.5
Gohan     4.2
Trunks    4.0
Broly     6.2
dtype: float64

In [17]:
pd.DataFrame(ki, columns=['ki'])

Unnamed: 0,ki
Goku,4.7
Vegeta,4.5
Gohan,4.2
Trunks,4.0
Broly,6.2


Desde un diccionario:

In [18]:
data = {'edades': [54, 48, 30, 26, 30], 'clase': ['C', 'A', 'D', 'B', 'C']}
pd.DataFrame(data)

Unnamed: 0,edades,clase
0,54,C
1,48,A
2,30,D
3,26,B
4,30,C


Desde una matriz de NumPy:

In [19]:
pd.DataFrame(np.random.rand(5, 3),
columns = ['columna_1', 'columna_2', 'columna_3'],
index = ['a', 'b', 'c', 'd', 'e'])

Unnamed: 0,columna_1,columna_2,columna_3
a,0.539658,0.270937,0.706041
b,0.749741,0.391418,0.276811
c,0.37533,0.940755,0.254456
d,0.995281,0.219384,0.071023
e,0.171206,0.857087,0.768386


### Lectura de archivos .csv como DataFrames.

In [30]:
dragon_ball_z = pd.read_csv(r"C:\Users\aavila\Desktop\data_science\data_sets\dragon_ball_z.csv")
type(dragon_ball_z)

pandas.core.frame.DataFrame

In [31]:
dragon_ball_z

Unnamed: 0,Name,Race,Gender,Power Level,Ki Blast,Melee Combat,Speed,Special Attack,Transformation
0,Goku,Saiyan,Male,9000,Kamehameha,Dragon Fist,Fast,Spirit Bomb,Super Saiyan
1,Vegeta,Saiyan,Male,8500,Galick Gun,Big Bang,Fast,Final Flash,Super Saiyan
2,Piccolo,Namekian,Male,8000,Special Beam Cannon,Namekian Punch,Fast,Hellzone Grenade,Fuse with Kami
3,Gohan,Half-Saiyan,Male,7500,Masenko,Soaring Dragon Strike,Fast,Father-Son Kamehameha,Super Saiyan 2
4,Future Trunks,Half-Saiyan,Male,7800,Burning Attack,Sword Strike,Fast,Heat Dome Attack,Super Saiyan
...,...,...,...,...,...,...,...,...,...
65,Upa,Human,Male,10,,Martial Arts,Slow,,-
66,Mai,Human,Female,10,,Firearms,Slow,,-
67,Mr. Satan,Human,Male,50,,Martial Arts,Slow,,-
68,Vados,Angel,Female,200000,Destruction,Angelic Martial Arts,Fast,,-


Asignar el indice a través de la columna **"Name"**

In [32]:
dragon_ball_z = dragon_ball_z.set_index(["Name"])

In [29]:
dragon_ball_z.head(10)

Unnamed: 0_level_0,Race,Gender,Power Level,Ki Blast,Melee Combat,Speed,Special Attack,Transformation
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Goku,Saiyan,Male,9000,Kamehameha,Dragon Fist,Fast,Spirit Bomb,Super Saiyan
Vegeta,Saiyan,Male,8500,Galick Gun,Big Bang,Fast,Final Flash,Super Saiyan
Piccolo,Namekian,Male,8000,Special Beam Cannon,Namekian Punch,Fast,Hellzone Grenade,Fuse with Kami
Gohan,Half-Saiyan,Male,7500,Masenko,Soaring Dragon Strike,Fast,Father-Son Kamehameha,Super Saiyan 2
Future Trunks,Half-Saiyan,Male,7800,Burning Attack,Sword Strike,Fast,Heat Dome Attack,Super Saiyan
Krillin,Human,Male,2000,Destructo Disc,Kamehameha,Average,Solar Flare,-
Tien,Human,Male,2200,Tri-Beam,Wolf Fang Fist,Fast,Four Witches Technique,-
Yamcha,Human,Male,1800,Spirit Ball,Wolf Fang Fist,Average,Wolf Fang Fist,-
Chiaotzu,Human,Male,1400,Dodon Ray,Psychic Powers,Slow,Psychic Powers,-
Bulma,Human,Female,5,,,,,-


In [33]:
dragon_ball_z.columns

Index(['Race', 'Gender', 'Power Level', 'Ki Blast', 'Melee Combat', 'Speed',
       'Special Attack', 'Transformation'],
      dtype='object')

In [34]:
dragon_ball_z.index

Index(['Goku', 'Vegeta', 'Piccolo', 'Gohan', 'Future Trunks', 'Krillin',
       'Tien', 'Yamcha', 'Chiaotzu', 'Bulma', 'Master Roshi', 'Android 18',
       'Android 17', 'Cell', 'Frieza', 'Majin Buu', 'Yamu', 'Spopovich',
       'Videl', 'Dabura', 'Hercule', 'Ox-King', 'Chi-Chi', 'Puar', 'Oolong',
       'Launch', 'Mr. Popo', 'Kami', 'King Kai', 'Bubbles', 'Gregory', 'Dende',
       'Nail', 'Great Saiyaman', 'Videl', 'Raditz', 'Nappa', 'Zarbon',
       'Dodoria', 'Captain Ginyu', 'Burter', 'Recoome', 'Guldo', 'Cell Jr.',
       'Android 16', 'Android 19', 'Android 20', 'Babidi', 'Yakon', 'Pui Pui',
       'Android 13', 'Bojack', 'Janemba', 'Broly', 'Cooler', 'Android 14',
       'Android 15', 'Majin Vegeta', 'Dr. Gero', 'Android 8', 'Mercenary Tao',
       'Nam', 'King Piccolo', 'Launch', 'Emperor Pilaf', 'Upa', 'Mai',
       'Mr. Satan', 'Vados', 'Whis'],
      dtype='object', name='Name')

**Una sola columna de un Dataframe es una serie.**

In [37]:
ki = dragon_ball_z["Power Level"]
type(ki)

pandas.core.series.Series

In [38]:
ki

Name
Goku               9000
Vegeta             8500
Piccolo            8000
Gohan              7500
Future Trunks      7800
                  ...  
Upa                  10
Mai                  10
Mr. Satan            50
Vados            200000
Whis             200000
Name: Power Level, Length: 70, dtype: int64

### Funciones, métodos y atributos.

In [39]:
# Regresa el número de renglones, columnas, nombres de las columnas,  
# La cantidad de nan's y el tipo de dato de cada variable
dragon_ball_z.info()

<class 'pandas.core.frame.DataFrame'>
Index: 70 entries, Goku to Whis
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Race            70 non-null     object
 1   Gender          70 non-null     object
 2   Power Level     70 non-null     int64 
 3   Ki Blast        48 non-null     object
 4   Melee Combat    59 non-null     object
 5   Speed           69 non-null     object
 6   Special Attack  37 non-null     object
 7   Transformation  70 non-null     object
dtypes: int64(1), object(7)
memory usage: 7.0+ KB


In [None]:
# Breve dewcripción estadística de cada variable numérica
dragon_ball_z.describe()

Unnamed: 0,Power Level
count,70.0
mean,16546.071429
std,37854.615047
min,5.0
25%,1000.0
50%,4000.0
75%,10000.0
max,200000.0


In [42]:
# Tamaño del DataFrame
print(dragon_ball_z.shape)
print(dragon_ball_z.shape[0]) # Filas 
print(dragon_ball_z.shape[1]) # Columnas

(70, 8)
70
8


In [43]:
# Shape es una tupla
type(dragon_ball_z.shape)

tuple

In [44]:
# Número de valores únicos de cada variable

dragon_ball_z.nunique()

Race              17
Gender             2
Power Level       36
Ki Blast          39
Melee Combat      40
Speed              3
Special Attack    36
Transformation    11
dtype: int64

Para conocer la frecuencia de cada valor en cada variable se usa el siguiente método:

In [46]:
# Una sola columna
dragon_ball_z["Race"].value_counts()

Race
Human            21
Android          10
Alien             8
Saiyan            7
Namekian          4
Demon             4
Half-Saiyan       2
Frost Demon       2
Bio-Android       2
Angel             2
Shape-shifter     2
Majin             1
Genie             1
Monkey            1
Kai               1
Grasshopper       1
Wizard            1
Name: count, dtype: int64

In [55]:
for c in dragon_ball_z.columns:
    print(dragon_ball_z[c].value_counts(), '\n\n')

Race
Human            21
Android          10
Alien             8
Saiyan            7
Namekian          4
Demon             4
Half-Saiyan       2
Frost Demon       2
Bio-Android       2
Angel             2
Shape-shifter     2
Majin             1
Genie             1
Monkey            1
Kai               1
Grasshopper       1
Wizard            1
Name: count, dtype: int64 


Gender
Male      61
Female     9
Name: count, dtype: int64 


Power Level
8000      6
5         5
10000     4
4000      4
40000     4
10        4
2000      3
20000     3
1500      2
3000      2
9000      2
7800      2
300       2
1800      2
200000    2
50        2
1000      2
8500      1
7500      1
1400      1
700       1
30        1
6500      1
1100      1
12000     1
15000     1
2200      1
130       1
4500      1
42000     1
100       1
5000      1
100000    1
120000    1
50000     1
2600      1
Name: count, dtype: int64 


Ki Blast
Kamehameha              3
S.S. Deadly Bomber      3
Energy Wave             3
Dodo

### Métodos para resumir información en un solo valor.

Producen un único valor relacionado con los datos a los que se aplica. Si no se especifica otra cosa  
Pandas lo aplica resumiendo los valores de cada columna de un DataFrame, si se quiere resumir las variables de cada fila,  
se deberá especificar axis = 1 entre los paréntesis.

In [58]:
dragon_ball_z["Power Level"].mean()

np.float64(16546.071428571428)

In [59]:
dragon_ball_z.count()

Race              70
Gender            70
Power Level       70
Ki Blast          48
Melee Combat      59
Speed             69
Special Attack    37
Transformation    70
dtype: int64

In [60]:
dragon_ball_z.isnull()

Unnamed: 0_level_0,Race,Gender,Power Level,Ki Blast,Melee Combat,Speed,Special Attack,Transformation
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Goku,False,False,False,False,False,False,False,False
Vegeta,False,False,False,False,False,False,False,False
Piccolo,False,False,False,False,False,False,False,False
Gohan,False,False,False,False,False,False,False,False
Future Trunks,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...
Upa,False,False,False,True,False,False,True,False
Mai,False,False,False,True,False,False,True,False
Mr. Satan,False,False,False,True,False,False,True,False
Vados,False,False,False,False,False,False,True,False


Suma de los nulos por variable

In [62]:
dragon_ball_z.isnull().sum()

Race               0
Gender             0
Power Level        0
Ki Blast          22
Melee Combat      11
Speed              1
Special Attack    33
Transformation     0
dtype: int64