## Pandas
## ¿Qué es?
Pandas es una biblioteca de código abierto que nos porporciona estructuras y herramientas  para poder procesar nuestros datos y analizarlos de forma simple.
Visita la documentación [aquí][doc]



[doc]:https://pandas.pydata.org

## Importación de las biblioteccas

In [3]:
import pandas as pd
import numpy as np

## [Series][docSeries]
Las series son matrices unidimensionales capaces de contener cualquier tipo de datos.
* Las etiquetas se denominan índices
* Es como una columna de Excel

Para crear una serie se hace lo siguiente, recibe como parámetro un array, iterable, diccionario o escalar. Los ejemplos se presentan a continuación:
### Creación de series
#### A partir de un array de numpy, lista o tupla


[docSeries]:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

In [20]:
serie=pd.Series(np.array([3,2]))
#print(serie)
print(serie)

0    3
1    2
dtype: int32


#### Con diccionario

In [4]:
d1 = { "a": 10, "b": 20, "c": 40 }
serie2 = pd.Series(d1)
print(serie2)

a    10
b    20
c    40
dtype: int64


#### Colocando índices


In [73]:
serie=pd.Series([1,2,3,4,5,6], index=["a","b","c","d","e","f"])
#print(serie)
print(serie[["a","c"]])

a    1
c    3
dtype: int64


In [27]:
serieA=pd.Series(range(1,100,2))
serieA.tail()

45    91
46    93
47    95
48    97
49    99
dtype: int64

### Manipulación de series

#### Métodos head(), tail() o sample()
Estos métodos nos permiten obtener cuerto número de nuestra serie de la siguiente manera:
- head(n): Retorna los primeros n valores de la serie. Por defecto regresa 5
- tail(n): Retorna los últimos n valores de la serie. Por defecto regresa 5
- sample(n): Retorna una muestra aleatoria de n valores en nuestros datos

In [30]:
serieA.head()
#serieA.tail()
#serieA.sample(10)

0    1
1    3
2    5
3    7
4    9
dtype: int64

#### Obtener un elemento
Para obtener un elemento de la serie, solo hay que hacer referencia por su índice

In [75]:
print(serie["a"])

1


####  Promedio, mínimo o máximo de una serie

Para obtener estos valores se tienen los sguientes métodos:
   - mean(): El valor promedio de toda la serie
   - max(): El valor máximo de toda la serie
   - min(): El valor mínimo de toda la serie

In [38]:
print(serieA.mean())

50.0


## [DataFrame][docDataFrame]
Son estructuras de datos bidimensionales de tamaño variable y potencialmente heterogénea con datos etiquetados.

Para crear un DataFrame tenemos las siguientes opciones

[docDataFrame]:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

In [15]:
frame=pd.DataFrame([0,1,2,3,4])
frame.head()

Unnamed: 0,0
0,0
1,1
2,2
3,3
4,4


#### Con diccionario

In [45]:
diccionario={
    "id":[1,2,3],
    "persona":["Lara","Enrique","Victor"],
    "Calificacion":[0,10,10],
    "Estado":["Reprobado","Aprobado","Aprobado"]
}
frameDic=pd.DataFrame(diccionario)
frameDic.set_index(["id"],inplace=True)
frameDic.tail()

Unnamed: 0_level_0,persona,Calificacion,Estado
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Lara,0,Reprobado
2,Enrique,10,Aprobado
3,Victor,10,Aprobado


#### Leer un archivo CSV

In [51]:
dataCSV=pd.read_csv("housing.csv")
dataCSV.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


## Renombrar una columna

In [17]:
frame.rename(
    columns={0:"nuevoNombre"}, 
    #inplace=True
).head()

Unnamed: 0,nuevoNombre
0,0
1,1
2,2
3,3
4,4


In [18]:
frame.head()

Unnamed: 0,0
0,0
1,1
2,2
3,3
4,4


#### Eliminar una columna

In [52]:
dataCSV.drop("ocean_proximity",inplace=True,axis=1)
dataCSV.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0


#### Seleccionar fila

In [56]:
dataCSV[["longitude","latitude"]].head()

Unnamed: 0,longitude,latitude
0,-122.23,37.88
1,-122.22,37.86
2,-122.24,37.85
3,-122.25,37.85
4,-122.25,37.85


#### Seleccionar fila y columna

In [62]:
dataCSV.loc[[1,9],["longitude","latitude"]].head()

Unnamed: 0,longitude,latitude
1,-122.22,37.86
9,-122.25,37.84


In [67]:
dataCSV.iloc[15:20,1:3]

Unnamed: 0,latitude,housing_median_age
15,37.85,50.0
16,37.85,52.0
17,37.85,52.0
18,37.84,50.0
19,37.84,52.0


#### Limpieza de un dataset
##### Resumen rápido de un DataFrame

In [68]:
dataCSV.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 9 columns):
longitude             20640 non-null float64
latitude              20640 non-null float64
housing_median_age    20640 non-null float64
total_rooms           20640 non-null float64
total_bedrooms        20433 non-null float64
population            20640 non-null float64
households            20640 non-null float64
median_income         20640 non-null float64
median_house_value    20640 non-null float64
dtypes: float64(9)
memory usage: 1.4 MB


##### ¿Hay nulos?

In [70]:
dataCSV.isnull().sum()

longitude               0
latitude                0
housing_median_age      0
total_rooms             0
total_bedrooms        207
population              0
households              0
median_income           0
median_house_value      0
dtype: int64

##### ¿Cómo los vamos a tratar?
Conseguir datos es un trabajo realmente difícil y costoso por lo que optar por eliminarlos a veces no es la mejor opción. Esto depende del problema. Algunas alternativas a eliminarlos son:
- Colocar el valor promedio
- Colocar la moda
- Colocar el valor mínimo
- Colocar el valor máximo

In [72]:
dataCSV["total_bedrooms"].fillna(value=dataCSV["total_bedrooms"].mean())
dataCSV.info()
#dataCSV["total_bedrooms"].dropna()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 9 columns):
longitude             20640 non-null float64
latitude              20640 non-null float64
housing_median_age    20640 non-null float64
total_rooms           20640 non-null float64
total_bedrooms        20433 non-null float64
population            20640 non-null float64
households            20640 non-null float64
median_income         20640 non-null float64
median_house_value    20640 non-null float64
dtypes: float64(9)
memory usage: 1.4 MB
