# Manipulación de datos en Python

Es muy útil poder leer datos, pero es aún más útil poder modificarlos a nuestro antojo.

Hay varias maneras de hacer esto,usando diferentes módulos de Python.

# Usando Pandas
## Carga de bases de datos

Una de las mejores opciones para trabajar con datos tabulares en Python es usar el modulo **pandas**. La biblioteca **pandas** provee estructuras de datos, genera gráficos de alta calidad con matplotlib y se integra de buena forma con otras bibliotecas que usan arrays de NumPy (la cual es otra biblioteca de Python).

El beneficio frente a otros paquetes es el de cargar las información en forma de DataFrame, la cual  es una estructura de datos con dos dimensiones en la cual se puede guardar datos de distintos tipos (como caractéres, enteros, valores de punto flotante, factores y más) en columnas. 

El uso de las funciones en el modulo para cargar datos dependerá de el formato del archivo a cargar.



| **Formato** | **Código** |
| :---: | :---: |
|csv|pandas.read_csv|
|xls o xlsx|pandas.read_excel|
|txt|pandas.read_csv|
|sql|pandas.read_sql|

Para esto debemos instalar el modulo de python llamado xlrd, la siguiente sentencia nos ayuda a hacer la instalación.

In [68]:
!pip install xlrd



## Carga de archivo  excel

In [245]:
import pandas as pd
data=pd.read_excel("C:/Users/Antonino/Desktop/Base1.xlsx","Hoja2",index_col=0,header=0)
data.head()# es util para verificar la cabecerade los datos

Unnamed: 0,SO2,"Neg,Temp",Empresas,Población,Viento,Precipitación,Dias
Phoenix,10,70.3,213,582,6.0,7.05,36
Miami,10,75.5,207,335,9.0,59.8,128
Memphis,10,61.6,337,624,9.2,49.1,105
Houston,10,68.9,721,1233,10.8,48.19,103
Alburquerque,11,56.8,46,244,8.9,7.77,58


para verificar la estructura de los datos podemos usar el comando type()

In [246]:
data.dtypes

SO2                int64
Neg,Temp         float64
Empresas           int64
Población          int64
Viento           float64
Precipitación    float64
Dias               int64
dtype: object

## Carga de archivo  txt

In [247]:
data2=pd.read_csv("C:/Users/Antonino/Desktop/data.txt",delimiter=";",header=0,index_col=None,decimal=".")
print(data2)

   x1  x2  x3  x4  x5
0   1   2   3   4   5
1   6   7   8   9  10


para conocer la dimensión del Data.Frame usamos la sentencia shape

In [248]:
data2.shape

(2, 5)

# Cargar datos desde Internet

Para esto, basta suministrar la dirección url donde se encuentran alojados los datos e importar ciertos atributos del módulo **urllib**:

In [249]:
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
data3= pd.read_csv(url,header=None)
print("Las primeras 3 filas son \n \n", data3.head(3),"\n\n")
print("La estructura de cada columna es \n \n", data3.dtypes)

Las primeras 3 filas son 
 
    0    1   2   3  4     5      6   7  8
0  6  148  72  35  0  33.6  0.627  50  1
1  1   85  66  29  0  26.6  0.351  31  0
2  8  183  64   0  0  23.3  0.672  32  1 


La estructura de cada columna es 
 
 0      int64
1      int64
2      int64
3      int64
4      int64
5    float64
6    float64
7      int64
8      int64
dtype: object


Es posible cambiar la estructura de cada una de las columnas en nuestro Data.Frame, esto puede ser directamente al cargar nuestra base o luego de esto, para el conjunto de datos data3 cambiaremos la estructura de la variable 1

In [250]:
data3.rename(columns={0:'V1',1:'V2'}, inplace=True)
data3.columns

Index(['V1', 'V2', 2, 3, 4, 5, 6, 7, 8], dtype='object')

In [251]:
data3.V1 = data3.V1.astype(str)
print("La estructura de cada columna es \n \n", data3.dtypes)

La estructura de cada columna es 
 
 V1     object
V2      int64
2       int64
3       int64
4       int64
5     float64
6     float64
7       int64
8       int64
dtype: object


## Seleccionar filas y columnas
Para seleccionar un conjunto de filas , podemos usar la sentencia iloc

la estructura para la función iloc es 

data.iloc[__filas__,__columnas__]

In [252]:
d4=data.iloc[[0,1],[0,1,2]]
d4


Unnamed: 0,SO2,"Neg,Temp",Empresas
Phoenix,10,70.3,213
Miami,10,75.5,207


## Concatenar bases
Es posible que en algún momento debamos unir 2 o más Data.frames en solamnete uno.

In [253]:
d5=data.iloc[[0,1],[0,1,2]]

union=pd.concat([d4,d5],axis=0,keys=["x","y"])
union


Unnamed: 0,Unnamed: 1,SO2,"Neg,Temp",Empresas
x,Phoenix,10,70.3,213
x,Miami,10,75.5,207
y,Phoenix,10,70.3,213
y,Miami,10,75.5,207


Si se se quieren revisar sólo los elementos con x luego de la concatenación

In [254]:
union.loc["x"]

Unnamed: 0,SO2,"Neg,Temp",Empresas
Phoenix,10,70.3,213
Miami,10,75.5,207


También es posible fundir 2 bases, para esto crearemos 2 DataFrames

In [255]:
d1= pd.DataFrame({'v1': ['1', '2', '3', '4'],
'v2': ['a', 'b', 'c', 'd'],
'v3': [1, 2, 3, 4]},
 index=[1, 3, 4, 5])
d2= pd.DataFrame({'v4': ['A0', 'A1', 'A2', 'A3'],
'v5': ['B0', 'B1', 'B2', 'B3'],
'v6': ['C0', 'C1', 'C2', 'C3'],
'v7': [5,6,7,8]},
index=[0, 1, 2, 3])
print(d1 ,"\n \n",d2)

  v1 v2  v3
1  1  a   1
3  2  b   2
4  3  c   3
5  4  d   4 
 
    v4  v5  v6  v7
0  A0  B0  C0   5
1  A1  B1  C1   6
2  A2  B2  C2   7
3  A3  B3  C3   8


In [256]:
df=pd.concat([d1,d2],axis=1,join="outer")
print(df)
#df.dtypes
np.mean(df["v3"])

    v1   v2   v3   v4   v5   v6   v7
0  NaN  NaN  NaN   A0   B0   C0  5.0
1    1    a  1.0   A1   B1   C1  6.0
2  NaN  NaN  NaN   A2   B2   C2  7.0
3    2    b  2.0   A3   B3   C3  8.0
4    3    c  3.0  NaN  NaN  NaN  NaN
5    4    d  4.0  NaN  NaN  NaN  NaN


2.5

Si es necesario unir 2 tablas sin perder información de alguna de ellas usaremos el comando merge

In [257]:
unionizquierda=pd.merge(left=d1,right=d2, how='left', left_on=d1.index, right_on=d2.index)
unionizquierda


Unnamed: 0,key_0,v1,v2,v3,v4,v5,v6,v7
0,1,1,a,1,A1,B1,C1,6.0
1,3,2,b,2,A3,B3,C3,8.0
2,4,3,c,3,,,,
3,5,4,d,4,,,,


In [258]:
pd.isnull(unionizquierda)


Unnamed: 0,key_0,v1,v2,v3,v4,v5,v6,v7
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,True,True,True,True
3,False,False,False,False,True,True,True,True


## Aplicar funciones sobre columnas o filas
Para aplicar una función en una columna o fila, puedes usar el método apply() de DataFrame.

In [259]:
data.apply(np.sum,axis=0)

SO2               1232.00
Neg,Temp          2286.30
Empresas         18987.00
Población        24953.00
Viento             387.20
Precipitación     1507.53
Dias              4670.00
dtype: float64

Para aplicar la función a una columna especifica, puedes especificar la columna de la siguiente forma:

In [260]:
data["SO2"].apply(np.sqrt).head()


Phoenix         3.162278
Miami           3.162278
Memphis         3.162278
Houston         3.162278
Alburquerque    3.316625
Name: SO2, dtype: float64

## Ordenar el Data.Frame

In [261]:
data.sort_values(by=['SO2',"Empresas"],ascending=True).head(10)

Unnamed: 0,SO2,"Neg,Temp",Empresas,Población,Viento,Precipitación,Dias
Wichita,8,56.6,125,277,12.7,30.58,82
New,9,68.3,204,361,8.4,56.77,113
Dallas,9,66.2,641,844,10.9,35.94,78
Miami,10,75.5,207,335,9.0,59.8,128
Phoenix,10,70.3,213,582,6.0,7.05,36
Memphis,10,61.6,337,624,9.2,49.1,105
Houston,10,68.9,721,1233,10.8,48.19,103
Alburquerque,11,56.8,46,244,8.9,7.77,58
Buffalo,11,47.1,391,463,12.4,36.11,166
San,12,56.7,453,716,8.7,20.66,67


## Omitir información duplicada
Para eliminar filas duplicadas de un DataFrame, usa el método drop_duplicates () del DataFrame.

In [262]:
    data.duplicated().head()

Phoenix         False
Miami           False
Memphis         False
Houston         False
Alburquerque    False
dtype: bool

In [263]:
data.drop_duplicates().head()

Unnamed: 0,SO2,"Neg,Temp",Empresas,Población,Viento,Precipitación,Dias
Phoenix,10,70.3,213,582,6.0,7.05,36
Miami,10,75.5,207,335,9.0,59.8,128
Memphis,10,61.6,337,624,9.2,49.1,105
Houston,10,68.9,721,1233,10.8,48.19,103
Alburquerque,11,56.8,46,244,8.9,7.77,58


## Borrar una columna o una fila

Para eliminar una columna o fila completa, podemos usar el método drop () del DataFrame especificando el nombre de la columna o fila.

In [264]:
data.drop(data.columns[0:2],axis=1).head()#Para borrar las columnas  en el indice 0, 1


Unnamed: 0,Empresas,Población,Viento,Precipitación,Dias
Phoenix,213,582,6.0,7.05,36
Miami,207,335,9.0,59.8,128
Memphis,337,624,9.2,49.1,105
Houston,721,1233,10.8,48.19,103
Alburquerque,46,244,8.9,7.77,58


In [265]:
data.drop(data.index[0:2],axis=0).head()#Para borrar las filas   en el indice 0, 1

Unnamed: 0,SO2,"Neg,Temp",Empresas,Población,Viento,Precipitación,Dias
Memphis,10,61.6,337,624,9.2,49.1,105
Houston,10,68.9,721,1233,10.8,48.19,103
Alburquerque,11,56.8,46,244,8.9,7.77,58
Buffalo,11,47.1,391,463,12.4,36.11,166
Chicago,110,50.6,3344,3369,10.4,34.44,122


## Resumen de los datos 

In [266]:
data.describe()

Unnamed: 0,SO2,"Neg,Temp",Empresas,Población,Viento,Precipitación,Dias
count,41.0,41.0,41.0,41.0,41.0,41.0,41.0
mean,30.04878,55.763415,463.097561,608.609756,9.443902,36.769024,113.902439
std,23.472272,7.227716,563.473948,579.113023,1.428644,11.77155,26.506419
min,8.0,43.5,35.0,71.0,6.0,7.05,36.0
25%,13.0,50.6,181.0,299.0,8.7,30.96,103.0
50%,26.0,54.6,347.0,515.0,9.3,38.74,115.0
75%,35.0,59.3,462.0,717.0,10.6,43.11,128.0
max,110.0,75.5,3344.0,3369.0,12.7,59.8,166.0


## Estructuras de control de flujo condicionales para filtrar información

Las estructuras de control condicionales, son aquellas que nos permiten evaluar si una o más condiciones se cumplen, para decir qué acción vamos a ejecutar. La evaluación de condiciones, solo puede arrojar 1 de 2 resultados: verdadero o falso (True o False).

|**Símbolo**|	**Significado**|	**Ejemplo**|	**Resultado**|
|:---:|:---:|:---:|:---:|
| `==`|	Igual que|	5 `==`7	|False|
|`!=`	|Distinto que|	rojo `!=` verde|	True|
|`<`|	Menor que|	8 `<` 12|	True|
|`>`|	Mayor que|	12 `>` 7|	True|
|`<=`|Menor o igual que|	12 `<=` 12|	True|
|`>=`|	Mayor o igual que|	4 `>= 5`|	False|

Si es necesario realizar un filtro de un Data.Frame es posible usando estas condiciones.

### Ejemplo
Para la base de datos data deseamos hacer un filtro para ver los estados con valores de SO2 menores a 10

In [267]:
Datafiltrada = data[data["SO2"] < 10]
print(Datafiltrada)

         SO2  Neg,Temp  Empresas  Población  Viento  Precipitación  Dias
Wichita    8      56.6       125        277    12.7          30.58    82
Dallas     9      66.2       641        844    10.9          35.94    78
New        9      68.3       204        361     8.4          56.77   113


Es posible crear condiciones múltiples en una misma instrucción, para evaluar más de una condición simultáneamente, se utilizan operadores lógicos:




|Operador|	Ejemplo	|Explicación	|Resultado|
| :---: | :---: | :---: | :---: |
|`&`|	5 `==` 7 and 7 `<` 12	|False and False|	False|
|`&`|	9 `<` 12 and 12 `>` 7	|True and True|	True|
|`&`|	9 `<` 12 and 12 `>` 15	|True and False|	False|
|` \| ` |	12 `==` 12 or 15 `<` 7	|True or False|	True|
|` \| ` |	7 `>` 5 or 9 `<` 12	|True or True|	True|
|`^`|	4 `==` 4 xor 9 `>` 3	|True o True|	False|
|`^`|	4 `==` 4 xor 9 `<` 3	|True o False|	True|

### Ejemplo 
Para la base de datos data deseamos hacer un filtro para ver los estados con valores de SO2 menores a 10 y con viento mayor a 10.

In [268]:
Datafiltrada2 = data[(data["SO2"] < 10) | (data["Viento"]>10)]
print(Datafiltrada2)

                 SO2  Neg,Temp  Empresas  Población  Viento  Precipitación  \
Houston           10      68.9       721       1233    10.8          48.19   
Buffalo           11      47.1       391        463    12.4          36.11   
Chicago          110      50.6      3344       3369    10.4          34.44   
Omaha             14      51.5       181        347    10.9          30.18   
Milwaukee         16      45.7       569        717    11.8          29.07   
Norfolk           31      59.3        96        308    10.6          44.68   
Detroit           35      49.9      1064       1513    10.1          30.96   
Cleveland         65      49.7      1007        751    10.9          34.99   
Wichita            8      56.6       125        277    12.7          30.58   
Dallas             9      66.2       641        844    10.9          35.94   
Providence        94      50.0       343        179    10.6          42.75   
Des               17      49.0       104        201    11.2     

## Exportar bases 
para esto es necesario instalar el modulo openpyxl

In [269]:
!pip install openpyxl
import openpyxl



In [270]:
usamos el comando to.excel para exportar la base de datos resultante

SyntaxError: invalid syntax (<ipython-input-270-cf868d00618f>, line 1)

In [None]:
Datafiltrada2.to_excel("pandasExcel.xlsx", "Sheet1")

## Ejercicio

Para la base de datos Craneos.csv

1. Cargar  la base.
2. Eliminar la primera columna y a los últimos 10 individuos.
3. Cambiar el nombre de la variable "Anchura.Cara" a "Anchuro.Cara"
4. Filtrar a los individuos que cumplan con:

 1. Longitud menor o igual a 13 o anchura mayor a 13.
 2. Tipo="R1"

Asignar los resultados a un objeto llamado craneos.a para el literal A y craneos.b para el literal B.
5. Encuentre las medidas resumen  de los objetos craneos.a y craneos.b

## Creación de nuevas variables 
Es posible crear nuevas columnas sobre el DataFrame 

In [None]:
import numpy as np
data["S02.2"]=np.sqrt(data["SO2"])
data.tail()


In [None]:
data.loc[data['SO2']<20,"So2.cha"]="bajo"
data.loc[data['SO2']>=20,"So2.cha"]="al to"
data

## Reemplazar subcadena para todos los campos de una columna


In [None]:
print(data["So2.cha"].replace({' ':''},regex=True))


## Agrupamiento

In [None]:
agru=data.groupby(["So2.cha"])
agru.first()
print(agru.mean())

## Ejercicio 

1. Para la base de datos Craneos.csv, cree una nueva variable llamada Longitud.2 la cual tenga las siguientes categorías.

    * pequeno si mide menos de 10
    * mediano si mide entre 10 y 20 
    * grande si mide mas de 10.
    
    
2. Reemplace la letra n por ñ solamente en la categoría pequeño, use la función replace.
3. Encuentre la mediana de la variable Anchura para las categorás pequeño, mediano y grande.
