**Notas Pandas.**

En este cuaderno mantendremos informacion sobre las mejores funciones y más comunes de la libreria.

In [2]:
import pandas as pd
import numpy as np


# 1. Serie.

A diferencia de un arreglo en numpy, una serie mantiene 2 arreglos: uno para el indice y otro para el valor.

Podemos modificar los indices e indicar como queremos que se identifiquen.

Tambien podemos colocar nombre a las series.

In [6]:
#si no declaras un index por default toma numero a partir del 0
print('Serie normal\n',pd.Series([1,2,3,4,5],
          index=['a','b','c','d','e'],
          name='Números',
          dtype=int))

#Otra forma mas sencilla para crear series puede ser al implementar diccionarios.

#creamos el diccionario
colores ={
    'rojo':100,
    'verde':200,
    'azul':300,
    'negro':400
}

#lo pasamos como argumento a la funcion
print('\nSerie en base a diccionario:\n ',pd.Series(colores))


Serie normal
 a    1
b    2
c    3
d    4
e    5
Name: Números, dtype: int64

Serie en base a diccionario:
  rojo     100
verde    200
azul     300
negro    400
dtype: int64


# **2. Valores núlos**

La forma de representar un valor nulo es mediante la sentencia **None** pero al momento de trabajar con series vamos a utilizar la sentencia **NaN**

In [13]:

#Numpy cuenta con la constante np.nan
a=pd.Series([np.nan,2,3,np.nan,5])
print('Ejemplo: \n', a)

#Metodo isnull - notnull

print('\n Saber valores nullos: \n',a.isnull() )

print('\n Saber valores no nullos: \n',a.notnull() )

#ahora si quieres conocer los valores, necesitas aplicar el filtro

print('\n Conocer solo los valores nullos:  \n',a[a.isnull()])

print('\nConocer solo valores no nullos: \n',a[a.notnull()])



Ejemplo: 
 0    NaN
1    2.0
2    3.0
3    NaN
4    5.0
dtype: float64

 Saber valores nullos: 
 0     True
1    False
2    False
3     True
4    False
dtype: bool

 Saber valores no nullos: 
 0    False
1     True
2     True
3    False
4     True
dtype: bool

 Conocer solo los valores nullos:  
 0   NaN
3   NaN
dtype: float64

Conocer solo valores no nullos: 
 1    2.0
2    3.0
4    5.0
dtype: float64


# **3. DataFrame**

Es una estructura de datos similar a una hoja de excel, compuesta por filas y columnas.

La forma más sencilla de crearlo es mediante un diccionario, donde las llaves se conviernten en columnas y el contendio de cada llave conforma las filas



In [9]:
#diccionario
usuarios={
    'username':['user1','user2','user3'],
    'age':[30,25,27],
    'status':[True,False,True]
}

#creamos el dataframe
data=pd.DataFrame(usuarios)
print(data)

#Filtrar por columna

print('\nFiltro por llave: \n',data['username']) #forma regular
print('\nFiltro por atributo: \n', data.username)

print('\nSaber las columnas: \n', data.columns)
print('\nSaber los valores: \n', data.values)


  username  age  status
0    user1   30    True
1    user2   25   False
2    user3   27    True

Filtro por llave: 
 0    user1
1    user2
2    user3
Name: username, dtype: object

Filtro por atributo: 
 0    user1
1    user2
2    user3
Name: username, dtype: object

Saber las columnas: 
 Index(['username', 'age', 'status'], dtype='object')

Saber los valores: 
 [['user1' 30 True]
 ['user2' 25 False]
 ['user3' 27 True]]


# 3.1 Columnas dataframe.

En este caso debemos tener claro que las columnas son series


In [19]:
#Para agregar una columna a un Dataframe
print('Dataframe original: \n',data )


#Creamos una serie
serie_a = pd.Series(np.random.randint(0,10,3))
print('Calificaciones:\n', serie_a)

#Incorporamos la columna, pero debes cuidar que los indices coincidan
data['Calificaciones']=serie_a
print('\nDataframe actualizado: \n',data)


#Actualizar nombres de columnas
data = data.rename(
    columns={'Calificaciones':'Score'}
)

print('Renombrar columna: \n',data)


#Para filtrar podemos hacerlo por nombre de columna o el atributo del objeto
#al igual que la series

print('Filtro nombre de columna: \n', data['Score'])
print('\nFiltro Por atributo del objeto: \n', data.Score)


#Para eliminar una columa utilizamos la palabra reservada del
#el cambio se aplica sobre el mismo objeto
del data['Score']
print('\nEliminar columna Score: \n',data)







Dataframe original: 
   username  age  status
0    user1   30    True
1    user2   25   False
2    user3   27    True
Calificaciones:
 0    1
1    1
2    7
dtype: int64

Dataframe actualizado: 
   username  age  status  Calificaciones
0    user1   30    True               1
1    user2   25   False               1
2    user3   27    True               7
Renombrar columna: 
   username  age  status  Score
0    user1   30    True      1
1    user2   25   False      1
2    user3   27    True      7
Nombre de columna: 
 0    1
1    1
2    7
Name: Score, dtype: int64

Por atributo del objeto: 
 0    1
1    1
2    7
Name: Score, dtype: int64
Eliminar columna Score: 
   username  age  status
0    user1   30    True
1    user2   25   False
2    user3   27    True


# 4. Leer archivos CSV

Utilizaremos la funcion:
**data= pd.read_CSV('nombre-archivo.csv')**

En caso que tengamos una columna que utilizaremos con id principal de los indices en el archivo, podemos indicarlo al momento de leer el archivo. De caso contrario pandas asignara el id autonumerico partiendo de 0.

**data=pd.read_CSV('nombre-archivo.csv', index_col='id')**


Métodos:

Para ver los primero 5 filas:
**data.head()**

Para ver las primeras n filas:
**data.head(20)**


Para ver los ultimos 5 filas:
**data.tail()**

o n numero de filas:
**data.tail(15)**




# **5. Limpieza de datos**

Lo importante es eliminar las filas que carescan de algun valor:

Métodos:

Crea un nuevo dataframe excluyendo las filas que carescan de algun valor:
**data.dropna()**

Coloca el valor en todas los campos con NaN.
**data.fillna('Nuevo valor')**

La recomendacion es útilizar un diccionario, para indicar que valores queremos asignar a cada columna, por ejemplo:

** data.fillna({'name':'Sin nombre', 'email':'example@example.com'})**





# 6. Atributo loc -iloc
Este atributo nos permite extraer filas con respecto al indice que compartimos.

Nota: iloc para indices enteros,
      Loc para indices string



In [None]:
print('Data original: \n',data)

print('\nFuncion de loc: \n',data.iloc[1])

print('\nCreamos un subdataframe acorde a un rango: \n',data.iloc[1:2])

#Para indices STRING
#indice inicial y un listado de columnas
print('\nLimitar las columnas: \n',data.loc[1:2,['username','status']])
print('\nOtra sentencia que funciona: \n',data.loc[1:2][['username','status']])

#Para idices ENTEROS

print('\nLimitar las columnas: \n',data.iloc[1:2,[0,2]])
print('\nOtra sentencia que funciona: \n',data.iloc[1:2][['username','status']])# mejor usar esta



# 7. Condicionales





In [None]:
#obtener el nombre de todos los usuarios de canada
data[ data['country']=='Canada' ]['name']

#Obtener el nombre y correo e todos los usuarios con edad mayor a 50
data[ data['age']>50 ]['name','email']


#Obtener el promedio de todos los usuarios de sexo femenino con un edad mayor a 30
data[ (data['gender'] == 'female' )& (data['age']>30)]['age'].mean()







# 8. Ordenamiento



In [None]:
#Obtener el usuario mas joven de Canada
data[ data['country'] == 'Canada'].sort_values('age').head(1)


#Obtener los 5 usuarios mas viejo de Alemania

data[ data['country']=='Alemania'].sort_values('age',ascending=False).head(5)

# 9. Búsqueda por rangos

In [None]:
#Obtener todos los usuarios entre la edad 40 y 50

data[ (data['age']>=40) & (data['age']<=50)]

#otra forma de hacerlo

data[ data['age'].between(40,50)]


# 10. Búsqueda entre opciones

In [None]:
#Obtener el nombre de todos los usuarios mayores a 30
#de lo paises Canada, Alemania y Francia

data[ (data['age']>30) & (data['country']== 'Canada' | data['country']== 'Alemania' | data['country']== 'Francia') ]


#otra forma de hacerlo más optimo
countries=['Canada','Alemania','Francia']
data[ (data['age']>30) & (data['country'].isin(countries))]



#**11. Métodos de strings**

startswith - endswith - contains
Estos metodos corresponde a un LIKE en sentencia SQL



In [None]:
#Todos los usuarios que su correo inician con a
data[ data['email'].str.startswith('a')]

#Todos los usuarios que su correo termine con .com
data[ data['email'].str.endswith('.com')]

#Todos los usuarios que su nombre posea Jorge
data[ data['name'].str.contains('Jorge')]


# 12. Agrupamiento


In [None]:
#Mostrar la cantidad de hombres y mujeres del dataset
data.groupby('gender')['gender'].count()
#genero la agrupacion, ingreso por medio de la llave de agrupamiento
#luego ejecuto el método count


#Mostrar el páís con más mujeres
data[ data['gender']=='female'].groupby('country')['country'].count().sort_values(ascending=False).head(1)
