# Pandas-Estructuras de datos y Operaciones

### Librerias de pandas

1.Series

2.DataFrames

In [90]:
import pandas as pd
import numpy as np

In [91]:
#Genera una serie de numeros aleatorios y le genera un indice a cada uno
pd.Series(np.random.randn(8))

0   -0.573715
1    0.535977
2   -0.577098
3    2.782825
4    0.994908
5    1.501429
6    1.002831
7    1.841899
dtype: float64

In [92]:
#En este caso generamos numeros aleatorios pero los indices los definimos en "index="
#Los indices tambien pueden ser letras
pd.Series(np.random.randn(8),index=[1,2,3,4,5,6,7,8])

1   -0.924466
2    0.639813
3   -0.578008
4   -1.634319
5    0.118833
6    1.228756
7   -0.233513
8    1.033091
dtype: float64

In [93]:
#muestra el diccionario como una serie con "pd.Series"
d = {'A': 6, 'B': 3, 'C': 'abc', 'D': np.exp(2)}
pd.Series(d)

A           6
B           3
C         abc
D    7.389056
dtype: object

## DataFrame:

**DataFrame is a 2D data structure with columns of different datatypes and rows are named index. It can be formed from the following data structures:**
1. Numpy array
2. Lists
3. Dicts
4. Series

In [94]:
#Diccionarios con series, dos series desplegadas con su indice
d = {'column_1': pd.Series([1,2,3]),
    'column_2': pd.Series(['abc',10.5,'xy'])}
df = pd.DataFrame(d)
df

Unnamed: 0,column_1,column_2
0,1,abc
1,2,10.5
2,3,xy


In [95]:
#Uso de diccionarios de listas
d = {'column_1': [1,2,3],
    'column_2': ['abc',10.5,'xy'],
    'column_3': [14,15,26]}
df = pd.DataFrame(d)
df

Unnamed: 0,column_1,column_2,column_3
0,1,abc,14
1,2,10.5,15
2,3,xy,26


In [96]:
#Usando un numpy array
array = np.array([[0.8, 5.5], [3.7, 12.4]])
df = pd.DataFrame({'Column1': array[:, 0], 'Column2': array[:, 1]}, index=['A','B'])
print(df)

   Column1  Column2
A      0.8      5.5
B      3.7     12.4


## Selection and Indexing(Seleccion e indexacion)

In [97]:
# df es la variable que contiene el dataframe, y extraemos los valores de la columna 1
df['Column1']

A    0.8
B    3.7
Name: Column1, dtype: float64

In [98]:
df['Column1']

A    0.8
B    3.7
Name: Column1, dtype: float64

In [99]:
#Seleccionar mas de una columna
df[['Column1','Column2']]

Unnamed: 0,Column1,Column2
A,0.8,5.5
B,3.7,12.4


## loc and iloc: Nombre de indices

In [100]:
#hace la busqueda de una fila mediante la indexacion "A"
df.loc['A']

Column1    0.8
Column2    5.5
Name: A, dtype: float64

In [101]:
#Otra manera de encontrar un indice es mediante iloc la cual busca por posiciones en las filas
#Preacticamente es igual que loc, pero funciona en caso de tener indices mal definidos
df.iloc[0]

Column1    0.8
Column2    5.5
Name: A, dtype: float64

In [102]:
# Ver el tipo de dato de la columna seleccionada
type(df['Column1'])

pandas.core.series.Series

## Insertar nuevas columnas

In [103]:
#Usar la variable donde se almacena una serie y asignarle un nuevo nombre
#En este caso la nueva columna tiene la informacion de la suma de las dos anteriores
df['new'] = df['Column1'] + df['Column2']
df

Unnamed: 0,Column1,Column2,new
A,0.8,5.5,6.3
B,3.7,12.4,16.1


## Eliminar columnas

In [104]:
#Elimina una columna (inplace=True) sirve para que los cambios se hagan permannentes
#(axis=1) hace referencia a las columnas de ser 0 seria referente a las filas
df.drop('new',axis=1,inplace=True) # use inplace to make changes permanent
df

Unnamed: 0,Column1,Column2
A,0.8,5.5
B,3.7,12.4


## Selecting a subset of the dataframe with rows and columns
### Seleccionar un campo especifico

In [105]:
# Se especifica el indice y la columna de la celda que se va a mostrar
df.loc['A','Column1']

0.8

In [106]:
# Resetear los indices a los valores originales y agrega los anteriores indices a la columna
df.reset_index(inplace=True)
df

Unnamed: 0,index,Column1,Column2
0,A,0.8,5.5
1,B,3.7,12.4


In [107]:
#interseccion entre valores, una busqueda por index y una columna completa
df.loc[[0,1],['index','Column2']]

Unnamed: 0,index,Column2
0,A,5.5
1,B,12.4


In [108]:
#Seleccion mediante una condicion condicion ="[df['Column1']>1]" columnas que se mostraran="[['index','Column2']]"
df[df['Column1']>1][['index','Column2']]

Unnamed: 0,index,Column2
1,B,12.4


In [109]:
# AND condition--> condicion AND
df[(df['Column1']>1) & (df['Column2'] > 5)]

Unnamed: 0,index,Column1,Column2
1,B,3.7,12.4


In [110]:
# OR condition-->Condicion OR
df[(df['Column1']>1) | (df['Column2'] <= 5.5)]

Unnamed: 0,index,Column1,Column2
0,A,0.8,5.5
1,B,3.7,12.4


In [111]:
# NOT condition
df[~((df['Column1']>1) | (df['Column2'] <= 5.5))]

Unnamed: 0,index,Column1,Column2


## Propiedades de los indices

In [112]:
#Extrearr los valores de los indices
df.index.values

array([0, 1], dtype=int64)

In [113]:
#Separa una cadena de texto en una lista
a = '10 abc'.split()
print(a)

['10', 'abc']


In [114]:
#Inserta una nueva columna con los datos extraidos del split
df['Column3'] = a
df

Unnamed: 0,index,Column1,Column2,Column3
0,A,0.8,5.5,10
1,B,3.7,12.4,abc


In [115]:
#Inserta una fila mediante el indice, el indice no debe existir
df.loc[2]=[2,'C',32,11.8,'xyz']
df

ValueError: cannot set a row with mismatched columns

## Operaciones

In [116]:
#crea un dataframe con la convension de un diccionario
#".head" sirve para mostrar los primeros 5 resultados
df = pd.DataFrame({'col1':[10,20,30,40,50],'col2':[4,5,6,5,2],'col3':['abc','def','ghi','xyz','123']})
df.head()

Unnamed: 0,col1,col2,col3
0,10,4,abc
1,20,5,def
2,30,6,ghi
3,40,5,xyz
4,50,2,123


In [117]:
#Sumar los elemntos de una columna dada
df['col2'].sum()

22

In [118]:
(df['col2']==5).sum()

2

In [119]:
#Ver la cantidad de elementos en una columna
df['col2'].count()

5

In [120]:
#Cuantos elementos existen por cada tipo en una columna "Columna; veces que se repiten"
df['col2'].value_counts()

5    2
4    1
6    1
2    1
Name: col2, dtype: int64

In [121]:
#extrear la columna elegida
df['col2'].values

array([4, 5, 6, 5, 2], dtype=int64)

In [122]:
#Extraer los titulos o cabeceras de cada columna
#Sort acomoda los valores
a = df.columns.values
s = sorted(a)
print(s)

['col1', 'col2', 'col3']


In [123]:
#Ordena todo el data frame por una columna especificada "col2"
df.sort_values(by='col2')

Unnamed: 0,col1,col2,col3
4,50,2,123
0,10,4,abc
1,20,5,def
3,40,5,xyz
2,30,6,ghi


In [124]:
#Agregar valores nulos dentro de un nuevo indice
df.loc[5]=[np.nan,2,np.nan]
df

Unnamed: 0,col1,col2,col3
0,10.0,4.0,abc
1,20.0,5.0,def
2,30.0,6.0,ghi
3,40.0,5.0,xyz
4,50.0,2.0,123
5,,2.0,


In [125]:
#Borrar valores nulos en todo el data frame y sus filas correspondientes
df.dropna(inplace=True)
df

Unnamed: 0,col1,col2,col3
0,10.0,4.0,abc
1,20.0,5.0,def
2,30.0,6.0,ghi
3,40.0,5.0,xyz
4,50.0,2.0,123


In [126]:
#Se agrega una nueva fila con valores nulos  
#se reemplazan con "sin valor" mediante "fillna"
df.loc[5]=[np.nan,2,np.nan]
df.fillna('sin valor',inplace=True)
df

Unnamed: 0,col1,col2,col3
0,10.0,4.0,abc
1,20.0,5.0,def
2,30.0,6.0,ghi
3,40.0,5.0,xyz
4,50.0,2.0,123
5,sin valor,2.0,sin valor


In [127]:
# Muestra un valor booleano en aquellas celdas que haya un valor nulo
df.loc[6]=[np.nan,2,np.nan]
df.isnull()

Unnamed: 0,col1,col2,col3
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,True,False,True


In [128]:
#Resetea el index, convertirlos en columnas
df.reset_index(inplace=True)
df

Unnamed: 0,index,col1,col2,col3
0,0,10.0,4.0,abc
1,1,20.0,5.0,def
2,2,30.0,6.0,ghi
3,3,40.0,5.0,xyz
4,4,50.0,2.0,123
5,5,sin valor,2.0,sin valor
6,6,,2.0,


In [129]:
#Ordenar por valores de los indices
df.sort_index(ascending=False,inplace=True)
df

Unnamed: 0,index,col1,col2,col3
6,6,,2.0,
5,5,sin valor,2.0,sin valor
4,4,50.0,2.0,123
3,3,40.0,5.0,xyz
2,2,30.0,6.0,ghi
1,1,20.0,5.0,def
0,0,10.0,4.0,abc


In [130]:
#Valores de una columna asignarlos como indices
df.set_index('col3',inplace=True)
df

Unnamed: 0_level_0,index,col1,col2
col3,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
,6,,2.0
sin valor,5,sin valor,2.0
123,4,50.0,2.0
xyz,3,40.0,5.0
ghi,2,30.0,6.0
def,1,20.0,5.0
abc,0,10.0,4.0


In [131]:
#Regresar los indices  a su valor original
df.reset_index(inplace=True)
df

Unnamed: 0,col3,index,col1,col2
0,,6,,2.0
1,sin valor,5,sin valor,2.0
2,123,4,50.0,2.0
3,xyz,3,40.0,5.0
4,ghi,2,30.0,6.0
5,def,1,20.0,5.0
6,abc,0,10.0,4.0


## Operaciones con Strings

In [132]:
#Extrae valores deacuerdo una condicion con expresiones regulares
#Extrae numeros y letras menos espacios
df['col3'].str.extract('(\w+)',expand=False)

0    NaN
1    sin
2    123
3    xyz
4    ghi
5    def
6    abc
Name: col3, dtype: object

In [133]:
#Extrae valores mediante una igualdad de la fila
df[df['col3']=='abc']

Unnamed: 0,col3,index,col1,col2
6,abc,0,10.0,4.0


In [134]:
#Convertir datos a mayusculas o minusculas con lower()
df['col3'].str.upper()#lower()

0          NaN
1    SIN VALOR
2          123
3          XYZ
4          GHI
5          DEF
6          ABC
Name: col3, dtype: object

In [135]:
#Muestra la longidtud de cada celda de la columna seleccionada
df['col3'].str.len()

0    NaN
1    9.0
2    3.0
3    3.0
4    3.0
5    3.0
6    3.0
Name: col3, dtype: float64

In [136]:
#dividir deacuerdo a la letra"c" usualmente split se utiliza con espacios en blanco
df['col3'].str.split('c')

0            NaN
1    [sin valor]
2          [123]
3          [xyz]
4          [ghi]
5          [def]
6         [ab, ]
Name: col3, dtype: object

In [137]:
#Reemplaza un espacio en blanco por dos guiones bajos
#pueden ser otros caracteres
df['col3'].str.replace(' ','__')

0           NaN
1    sin__valor
2           123
3           xyz
4           ghi
5           def
6           abc
Name: col3, dtype: object

In [138]:
#Busqueda que retorna un valoor booleano si es que alguna celda contiene el valor ingresado "a"
c=df['col3'].str.contains('a')
c

0      NaN
1     True
2    False
3    False
4    False
5    False
6     True
Name: col3, dtype: object

## ONE HOT ENCONDING:

In [139]:
#Creamos un dataframe de sexos masculino y femenino y edades
dfhot = pd.DataFrame({'gender':['male','female','male','female','male'],'age_range':['young','adult','senior','young','adult']})
dfhot

Unnamed: 0,gender,age_range
0,male,young
1,female,adult
2,male,senior
3,female,young
4,male,adult


In [140]:
#Trasformar datos categoricos
data_dummies = pd.get_dummies(dfhot)
data_dummies

Unnamed: 0,gender_female,gender_male,age_range_adult,age_range_senior,age_range_young
0,0,1,0,0,1
1,1,0,1,0,0
2,0,1,0,1,0
3,1,0,0,0,1
4,0,1,1,0,0


## Reference:
https://pandas.pydata.org/pandas-docs/stable/dsintro.html

https://pandas.pydata.org/pandas-docs/stable/basics.html