# Proyecto: Trabajando con variables tipo texto en pandas

### Algunas funciones usadas en este proyecto son:
`.str.lower()` <- pasa el texto a minúsculas

`.str.upper()` <- pasa el texto a mayúsculas

`.str.capitalize()` <- Pone la primer letra en Mayúscula y el resto en minúscula

`.str.len()` <- Extrae la longitud de textos (contando espacios)

`.str.split(' ')` <- Separa las cadenas de texto cada que hay un espacio

`.str.split('#')` <- Separa las cadenas de texto cada que hay un espacio

`.str[:5]` <- Selecciona los primeros '5' carácteres

`.str[-5:]` <- Selecciona los últimos '5' carácteres

`.str.replace('texto_anterior','texto_nuevo')` <- Reemplaza cadenas de texto 

`.str.contains('porcion_texto')` <- Detecta un pedazo de texto específico

`.str.lower().str.count('letra')` Detecta el número de véces en que aparece alguna letra específicada

`.str.extract('([0-9]+)', expand=False)` <- Extrae los números que contienen las cadenas de texto


In [36]:
import pandas as pd

In [2]:
# Creamos un diccionario de datos
data = {'names':['Sara Moreno 34',
                 'jUAn GOMez 23',
                 'CArlos mArtinez 89',
                 'Alfredo VelaZques 3',
                 'luis Mora 56',
                 '@freddier #platzi 10',pd.NA]}

In [4]:
# pasamos el diccionario a un dataframe:
df = pd.DataFrame(data)
df

Unnamed: 0,names
0,Sara Moreno 34
1,jUAn GOMez 23
2,CArlos mArtinez 89
3,Alfredo VelaZques 3
4,luis Mora 56
5,@freddier #platzi 10
6,


In [5]:
# Pasamos el texto a minúsculas:
df['names'].str.lower()

0          sara moreno 34
1           juan gomez 23
2      carlos martinez 89
3     alfredo velazques 3
4            luis mora 56
5    @freddier #platzi 10
6                    <NA>
Name: names, dtype: object

In [6]:
# Pasamos el texto a mayúsculas:
df['names'].str.upper()

0          SARA MORENO 34
1           JUAN GOMEZ 23
2      CARLOS MARTINEZ 89
3     ALFREDO VELAZQUES 3
4            LUIS MORA 56
5    @FREDDIER #PLATZI 10
6                    <NA>
Name: names, dtype: object

In [7]:
# Pone la primer letra en Mayúscula y el resto en minúscula
df['names'].str.capitalize()

0          Sara moreno 34
1           Juan gomez 23
2      Carlos martinez 89
3     Alfredo velazques 3
4            Luis mora 56
5    @freddier #platzi 10
6                    <NA>
Name: names, dtype: object

In [8]:
# Extrae la longitud de textos (contando espacios)
df['names'].str.len()

0      14
1      13
2      18
3      19
4      12
5      20
6    <NA>
Name: names, dtype: object

In [25]:
# Separa las cadenas de texto cada que hay un espacio
df['names'].str.split(' ')

0          [Sara, Moreno, 34]
1           [jUAn, GOMez, 23]
2      [CArlos, mArtinez, 89]
3     [Alfredo, VelaZques, 3]
4            [luis, Mora, 56]
5    [@freddier, #platzi, 10]
6                        <NA>
Name: names, dtype: object

In [26]:
df['names'].str.split('#')

['Sara Moreno 34']

In [27]:
# Selecciona los primeros N carácteres
df['names'].str[:5]

0    Sara 
1    jUAn 
2    CArlo
3    Alfre
4    luis 
5    @fred
6     <NA>
Name: names, dtype: object

In [28]:
# Selecciona los últimos N carácteres
df['names'].str[-5:]

0    no 34
1    ez 23
2    ez 89
3    ues 3
4    ra 56
5    zi 10
6     <NA>
Name: names, dtype: object

In [29]:
# Reemplaza cadenas de texto
df['names'].str.replace('Alfredo','Antonio')

0          Sara Moreno 34
1           jUAn GOMez 23
2      CArlos mArtinez 89
3     Antonio VelaZques 3
4            luis Mora 56
5    @freddier #platzi 10
6                    <NA>
Name: names, dtype: object

In [30]:
# Detecta un pedazo de texto específico
df['names'].str.contains('or')

0     True
1    False
2    False
3    False
4     True
5    False
6     <NA>
Name: names, dtype: object

In [31]:
# Detecta el número de véces en que aparece alguna letra 
df['names'].str.lower().str.count('a')

0       2
1       1
2       2
3       2
4       1
5       1
6    <NA>
Name: names, dtype: object

In [32]:
# Extrae los números que contiene una cadena de texto
df['names'].str.extract('([0-9]+)', expand=False)

0     34
1     23
2     89
3      3
4     56
5     10
6    NaN
Name: names, dtype: object