# Python para economistas

### Mtro. Diego López Tamayo
#### El Colegio de México
#### BBVA Research

# Manejo de strings e introducción a Pandas
## Sesión 4 

- Manejo básico de texto (`strings`)
- Prefijos, sufijos, cambiar a minúsculas
- Introducción a Pandas
- DataFrames y Series
- Filtrar variables y valores
- Renombrar, crear y reemplazar variables
- Manejo de fechas y series de tiempo

## Trabajando con datos textuales (strings)

In [33]:
mensaje = 'hola mundo'
print(mensaje)

hola mundo


##### Buenas prácticas

- Variables en minúsculas
- Variables con nombres contextuales
- Múltiples palabras separadas con guión bajo "_"

In [34]:
# Algunos símbolos (caracteres) se deben "escapar"
# Para escapar caracteres especiales, utilizamos "\" Si queremos usar \ usamos "\\"

mensaje = 'Diego\'s message'
mensaje = "Diego's message" # Podemos distinguir entre comillas
print(mensaje)

Diego's message


In [35]:
# Podemos utilizar triple comilla para utilizar múltiples líneas

mensaje = """"Había una vez... 
Y este es el fin"""
print(mensaje)

"Había una vez... 
Y este es el fin


In [36]:
# Algunas funciones para strings
mensaje = 'Hola Mundo'
print(len(mensaje))

10


## Strings son una forma de listas - arrays

In [37]:
# Podemos hacer slicing de nuestros strings
print(mensaje[9])
print(mensaje[-1])
print(mensaje[len(mensaje)-1])

o
o
o


In [38]:
# Podemos hacer slicing de nuestros strings
print(mensaje[:4])
print(mensaje[5:])

Hola
Mundo


In [69]:
# Los strings son iterables
for x in mensaje:
    print(x)

D
i
e
g
o
 
e
s
t
u
d
i
ó
 
e
c
o
n
o
m
í
a


### Métodos útiles para strings

In [75]:
print(mensaje.lower())
print(mensaje.upper())

# Otros métodos útiles

curso = ' python para economistas '
print(curso.title())
print(curso.strip()) # Quitar espacios blancos rstrip, lstrip para enfocarnes al inicio o al final

diego estudió economía
DIEGO ESTUDIÓ ECONOMÍA
 Python Para Economistas 
python para economistas


In [68]:
mensaje = 'Diego estudió economía'

# Contar las repeticiones de un string dentro uno más grande
print(mensaje.count('o'))
# Encontrar el índice de algunos caracteres
print(mensaje.find('economía')) # Nos arroja la primer ocurrencia (donde empieza). Si no existe, nos regresa un -1
print('economía' not in mensaje)

3
14
False


In [53]:
# Método para remplazar elementos en un string
print(mensaje.replace('economía','historia'))
# No modifica el mensaje original
print(mensaje)

Diego estudió historia
Diego estudió economía


In [55]:
# Concatenar strings

saludo = 'Hola'
nombre = 'Diego'

mensaje = saludo + ' ' + nombre
print(mensaje)

Hola Diego


In [59]:
# Cuando se vuelven complicados los strings, podemos utilizar placeholders
mensaje = '{} {}'.format(saludo,nombre)
print(mensaje)

Hola Diego


In [60]:
# Python 3.6 hacia arriba tenemos nuevas funciones "f-strings"
# Para hacer el formato tan simple como sea posible
mensaje = f'{saludo} {nombre}'
print(mensaje)

Hola Diego


In [61]:
# Ventajas de "f-strings" es escribir código directo en el placeholder
mensaje = f'{saludo} {nombre.upper()}'
print(mensaje)

Hola DIEGO


In [64]:
# Queremos ver todos los métidos a los que tenemos acceso.
print(dir(nombre))
# Ignoremos por ahora los que tienen dobre guión al inicio o al final
# help(str.find)

['__add__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mod__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmod__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'capitalize', 'casefold', 'center', 'count', 'encode', 'endswith', 'expandtabs', 'find', 'format', 'format_map', 'index', 'isalnum', 'isalpha', 'isascii', 'isdecimal', 'isdigit', 'isidentifier', 'islower', 'isnumeric', 'isprintable', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lstrip', 'maketrans', 'partition', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit', 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', 'translate', 'upper', 'zfill']


In [97]:
# Ejemplo

variables = ["ing_cor","gasto","salud","energia","alimentos"]
prefijo = "enigh_2020_"


variables_pre = []
for i in range(len(variables)):
    variables_pre.insert(i, prefijo + variables[i])

print(variables_pre)

['enigh_2020_ing_cor', 'enigh_2020_gasto', 'enigh_2020_salud', 'enigh_2020_energia', 'enigh_2020_alimentos']


# Introducción a Pandas



- Pandas es una librería que nos da muchas herramientas para análisis de datos.
- Pandas está construído sobre `Numpy` agregando funciones adicionales para el manejo de **Dataframes**
- Permite leer datos de distintas fuentes, unir bases de datos, cambiar la forma de nuestros datos y realizar análisis.
- Buen desempeño al estar construido sobre `Numpy` heredando sus ventajas

In [2]:
import pandas as pd

Pandas es adecuado para muchos tipos diferentes de datos:

- Datos tabulares con columnas de tipos heterogéneos, como en una tabla SQL o una hoja de cálculo de Excel
- Datos de series de tiempo ordenados y desordenados (no necesariamente de frecuencia fija).
- Datos matriciales arbitrarios (homogéneos o heterogéneos) con etiquetas de fila y columna
- Cualquier otra forma de conjuntos de datos observacionales / estadísticos. No es necesario etiquetar los datos en absoluto para colocarlos en una estructura de datos de pandas.

- Las dos estructuras de datos principales de pandas, Series (unidimensional y homogéneo) y DataFrame (bidimensional y heterogéneo), manejan la gran mayoría de los casos de uso típicos en finanzas, estadísticas, ciencias sociales y muchas áreas de la ingeniería.  
- Para los usuarios de R, DataFrame proporciona todo lo que proporciona el data.frame de R y mucho más. 

    - Para ver la comparación entre pandas y R [ver aquí](https://pandas.pydata.org/docs/getting_started/comparison/comparison_with_r.html)
    
- Para los usuarios de Stata, pandas abarca los comandos básicos de manejo de bases de datos

    - Para ver la comparación entre pandas y Stata [ver aquí]((https://pandas.pydata.org/docs/getting_started/comparison/comparison_with_stata.html)

In [1]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://media.geeksforgeeks.org/wp-content/cdn-uploads/creating_dataframe1.png")

# La estructura de un DataFrame

#### Utilizaremos un dataset "famoso" en la comunidad de Python.

Este tutorial utiliza el conjunto de datos de Titanic, almacenado como CSV. Tenemos las siguientes columnas de datos:

- PassengerId: Id de cada pasajero.

- Survived: esta característica tiene valor 0 y 1. 0 para no sobrevivido y 1 para sobrevivido.

- Pclass: Hay 3 clases: Clase 1, Clase 2 y Clase 3.

- Name: Nombre del pasajero.

- Sex: Género del pasajero.

- Age: Edad del pasajero.

- SibSp: Indicación de que el pasajero tiene hermanos y cónyuge.

- Parch: si un pasajero está solo o tiene familia.

- Ticket: número de ticket del pasajero.

- Fare: Indicando la tarifa.

- Cabin: La cabina del pasajero.

- Embarked: La categoría de embarcado.

In [6]:
data = pd.read_csv('https://raw.githubusercontent.com/pandas-dev/pandas/master/doc/data/titanic.csv')
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [13]:
# Métodos para explorar
data.head()
data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [16]:
data.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [17]:
data.drop(['Name', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'], axis = 1).head()

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age
0,1,0,3,male,22.0
1,2,1,1,female,38.0
2,3,1,3,female,26.0
3,4,1,1,female,35.0
4,5,0,3,male,35.0
