A proliferação das redes sociais e dispositivos conectados à Internet (smartphones, tablets, computadores, câmeras de vídeo, GPS, etc.) geram, disseminam e armazenam diariamente milhões de bytes de dados na rede. Com os avanços de novas infraestruturas tecnológicas, esta enorme quantidade de dados, chamada Big Data, possibilitou que dados massivos sejam tratados e analisados corretamente para obter o maior valor possível.
As organizações capazes de capturar, organizar e lidar com esses grandes conjuntos de dados podem se beneficiar, entre outras coisas, para tomar decisões rapidamente e com resultados eficazes. Um dos primeiros requisitos é que os conjuntos de dados sejam acompanhados de informações que descrevem como eles são derivados, qual é o seu alcance, a autoria, a propriedade e as condições de reutilização, controle de qualidade, etc. Este conjunto de descritores são referidos como metadados. Assim, em conjunto com a interoperabilidade tecnológica, a existência de metadados adequado e padronizado é um requisito essencial para o acesso e reutilização de grandes quantidades de dados.
É possível caracterizar a complexidade dos dados pelo volúme, variedade e velocidade em termos de frequência de medição. Existem muitas iniciativas em curso em todas as áreas do conhecimento para sistematizar o fluxo massivo destes dados e melhorar a eficácia das técnicas utilizadas pelos investigadores para recolher dados e integrar seu uso preciso oriundo de múltiplas fontes.
Existem gigantescos volumes de dados que empresas e investigadores necessitam extrair informação relevante em momento apropiado. Estes dados requerem novas arquiteturas na sua gestão e manipulação, de modo que, para extrair valor de dados massivos, primeramente é necessário identificar as vantagens para os pesquisadores investirem na tecnología necessária para automatizar o processo de captura, processamento e armazenamento de dados. Depois, planejar uma estratégia de gestão de dados progressiva, que habilite cada sede mantenedora de dados para entender e interpretar os datos que manipula, proporcionando como resultado beneficios tangíveis.
As referências apresentadas a seguir busca reunir conhecimento sobre os enfoques a estes desafios com o uso de tecnologias de apoio e formas inovadoras para reunir, processar, analisar, oferecer acesso, integrar, visualizar e preservar grandes volúmes de dados.
_______________________________________________________________________________________________________________________
Literatura sobre Dados Científicos Abertos
E-science
_______________________________________________________________________________________________________________________
Autor: ANDERSON, Chris.
Título: The end of theory: the data deluge makes the scientific method obsolete. In: Wired Magazine
Local: Disponível em: <http://archive.wired.com/science/discoveries/magazine/16-07/pb_theory> . Acesso em: 20 jun. 2014.
Descrição: Embora o termo “Big Data” tenha começado a ser utilizado com muita frequência, a revista Wired foi um dos primeiros periódicos a publicar uma previsão das mudanças que poderiam ocorrer sobre a quantidade de dados digitais disponíveis. Em um artigo que apresentava o impacto positivo e negativo da imensa quantidade de dados disponíveis, previu que estávamos vivenciando o princípio da “era petabyte”. Apesar das previsões serem bem aceitas, há época pareciam um pouco exageradas, no entanto um petabyte, que equivale a 1.000.000.000.000.000 bytes de dados logo passou a quantidades maiores: exabytes, Zetabytes e iotabytes.
________________________________________________________________________________________________________________________
Autor: BOYD, D.; CRAWFORD, K.
Título: Critical questions for big data. Information, Communication & Society. v 15, n 5, Jun. 2012, p 662-679.
Local: Disponível em: <http://www.tandfonline.com/doi/full/10.1080/1369118X.2012.678878#.U8qGOagZZn0>. Acesso em: 20 jun. 2014.
Descrição: Define Big Data como um fenômeno cultural, tecnológico e intelectual que surge pela interconexão dos seguintes elementos: (1) Tecnologia: desenvolvimento da capacidade precisão de algoritmos para reunir, analisar, conectar e comparar grandes conjuntos de dados. (2) Análise: tomar como parâmetro grandes conjuntos de dados para identificar padrões para realizar diagnósticos econômicos, sociais, técnicos e legais. (3) Mitologia: a crença popular de que os grandes conjuntos de dados oferecem uma forma superior de inteligência e conhecimentos que podem gerar dados que anteriormente não eram possíveis, com uma aura de verdade, objetividade e exatidão.
_______________________________________________________________________________________________________________________
Autor: BRYANT, R. E.; KATZ, R. H.; LAZOWSKA, E. D.
Título: Big-Data computing:creating revolutionary breakthroughs in commerce, science, and society. Computing Community Consortium, v. 8, dez. 2008.
Local: Disponível em: <http://www.cra.org/ccc/files/docs/init/Big_Data.pdf> . Acesso em: 20 jul. 2014.
Descrição: Um grupo de pesquisadores de novas tecnologias afirma que da mesma maneira que os motores de busca alteraram a maneira de encontrar informações, o fenômeno Big Data transformarão as atividades de empresas, cientistas, médicos e as operações de defesa e Inteligência. Apontam que provavelmente a Big Data seja a maior inovação informática da última década, analisando que até agora somente temos visto seu potencial para reunir, organizar e processar dados em todos aspectos de nossas vidas. Concluem o estudo apontando que se o estado investir em tecnologias para gestão de Big Data, seu desenvolvimento poderia acelerar rapidamente.
_______________________________________________________________________________________________________________________
Autor: CUKIER, K.
Título: How much information? Global information industry center. The economist. Fev. 2010.
Local: Disponível em:<http://www.economist.com/node/15557443>. Acesso em: 08 jun. 2014.
Descrição: O estudo institulado “How Much Information?” revela que no ano 2008 os americanos consumiram informação equivalente a cerca de 1,3 bilhões de horas, o que supõe uma media de 12 horas por dia. O consumo total foi de 3,6 zettabytes e de 10.845 bilhões de palavras, o que equivale a uma media de 100.500 palavras e 34 gigabytes por pessoa ao dia. Neste estudo calcularam que os servidores do mundo processaram 9,57 zettabytes de informação, quase 10 ellevado a 22.ª potência, ou dez milhões de gigabytes. Isto equivale a 12 gigabytes de informação ao dia, ou a 3 terabytes de informação por pessoa ao ano. Diversas empresas do mundo inteiro preocessaram, em média, 63 terabytes de informação ao ano.
_______________________________________________________________________________________________________________________
Autor: CZECHOWSKI, Claude, et.
Título: Al. Big Data. Cómo gestionar el continuo diluvio de datos. Premiun, v. 1, n. 17, p 10-12,2011.
Local: Disponível em: <http://assets1.csc.com/es/downloads/CSCO_1108216_Premium17_ESP.pdf>. Acesso em: 20 jun. 2014.
Descrição: Os principais relatórios internacionais apontam que a maioria das empresas passará por significativas alterações nos setores de tecnologia da informação. Empresas pertencentes aos setores financeiros, energético, telecomunicações, vendas e muitas outras que trabalham essencialmente com o acúmulo de dados tomando como base a análise dos conteúdos que recebem progressivamente, estão diante de profundas inovações tecnológicas. Este texto reúne o ponto de vista de diversos especialistas do ramo empresarial debatendo o cenário econômico que envolve a Big Data e suas tendências.
_______________________________________________________________________________________________________________________
Autor: DUMBILL, Edd.
Título: Planning for Big Data:a CIO's Handbook to the Changing Data Landscape. Boston: O`reilly. 2012.
Local: Disponível em: <http://www.oreilly.com/data/free/planning-for-big-data.csp>. Acesso em: 20 junho 2014.
Descrição: Explica o que é Big Data, sua implicação para os negócios e como começar a resolver problemas relacionados aos dados. Também inclui um capítulo sobre a expansão do fenômeno Big Data e uma descrição detalhada de todo o ecosistema Hadoop e como diferentes fabricantes adotaram esta tecnologia como centro de soluções Big Data.
_______________________________________________________________________________________________________________________
Autor: GANTZ, John F. et. al.
Título: The expanding digital universe: a forecast of worldwide information growth through. Framingham: IDC, 2007.
Local: Disponível em: <http://www.emc.com/collateral/analyst-reports/expanding-digital-idc-white-paper.pdf> . Acesso em: 20 jun. 2014.
Descrição: Os pesquisadores da International Data Corporation calcularam um prognóstico da quantidade de dados digitais que foram criados e reproduzidos no ano 2006, quando foram criados e reproduzidos cerca de 161 exabytes de dados, prevendo que um aumento da quantidade de informações oriundas e novos dados na web multiplicadas em até 6 vezes (até 988 exabytes). Em síntese, analisam que a informação será duplicada a cada 18 meses durante os próximos ano. Se consultarmos os informes dos anos 2010 até 2012, é possível verificar que a quantidade de dados digitais a cada ano superou os prognósticos iniciais (1227 exabytes em 2010 e 2837 exabytes em 2012).
_______________________________________________________________________________________________________________________
Autor: GLOBAL PULSE.
Título: Big Data for development:challenges & opportunities. Global Pulse, Maio 2012.
Local: Disponível em: <http://www.unglobalpulse.org/sites/default/files/BigDataforDevelopment-GlobalPulseMay2012.pdf>. Acesso em: 20 jun. 2014.
Descrição: As tecnologias emergentes utilizadas para gestão de grandes quantidades de dados são apresentadas como solução para um cenário global em que o fenômeno Big Data se tornou a solução para compreender avanços econômicos, científicos e em diversos âmbitos em que ferramentas utilizadas para extrair conteúdos de dados massivos estão sendo incorporados. Nesse sentido, o relatório apresentado pela Gobal Pulse oferece um panorama global sobre as possibilidades para o desenvolvimento de países ricos e pobres mediante a analítica de dados em áreas como educação, saúde, economia, etc.
_______________________________________________________________________________________________________________________
Autor: HILBERT, M.; LOPEZ, P.
Título: The World’s Technological Capacity to Store, Communicate, and Compute Information Science Magazine. Science,v. 332 n. 6025. Abr. 2011. p. 60-65.
Local: Disponível em: <http://www.sciencemag.org/content/332/6025/60> . Acesso em: 08 jun. 2014.
Descrição: Apresenta um estudo do crescimento real dos dados no mundo, calculando que o armazenamento global cresceu a uma taxa anual de 25% desde 1987 até 2007. No mesmo sentido, os autores afirmam que no ano 1986, 99,2% do total de dados armazenados eram analógicos, porém em 2007 94% do armazenamento passou a ser digital. Isto supõe uma alteração radical em um período de tempo de somente 20 anos (em 2002, o armazenamento digital superou o armazenamento não digital pela primeira vez).
_______________________________________________________________________________________________________________________
Autor: LOUKIDES, M.
Título: What is data science?O’Reilly Radar Report, 2013.
Local: Disponível em: http://cdn.oreilly.com/radar/2010/06/What_is_Data_Science.pdf>. Acesso em: 20 jun. 2014.
Descrição: Na definição de Big Data, podemos identificar dois papéis principais. Desenvolvedores (chamado Hadoopers) e cientistas de dado. Esta última denominação é analisada amplamente. O mercado para especialistas em Data Sciene aumentou consideravelmente; geralmente ocupado por matemáticos, são responsáveis por definir os modelos de análise que serão desenvolvidos pelos hadoopers.
_______________________________________________________________________________________________________________________
Autor: MCKINSEY & COMPANY.
Título: Big Data, analytics, and the future of marketing & sales. NOOk Book(ebook), 2013.
Local: Disponível em: <http://www.barnesandnoble.com/w/big-data-analytics-and-the-future-of-marketing-sales-mckinsey-chief-marketing-sales-officer-forum/1115953376?ean=9781625391315> . Acesso em: 20 jun. 2014.
Descrição: Discute os benefícios da gestão de Big Data em e-comerce para facilitar os processos de tomada de decisão. Sugere o uso de tecnologias para identificar potenciais oportunidades de negócios e converter as oportunidades em produtos para clientes diretos. Uma análise mostra que as empresas que investem em Big Data tem níveis de ganho entre 5 e 6% maiores do que as empresas que não o fazem.
_______________________________________________________________________________________________________________________
Autor: NEEDHAN, J.
Título: Disruptive Possibilities – How Big Data Changes Everything. Chicago: O’Reilly, 2013.
Local: Disponível em: <http://hortonworks.com/wp-content/uploads/downloads/2013/04/DisruptivePossibilities.pdf> . Acesso em: 20 jun. 2014.
Descrição: Apresenta análise sobre o que é e pra que serve o novo cenário tecnológico denominado Big Data. Apresenta tecnologias simples que podem funcionar tanto em código aberto como softwares para gestão de dados comerciais, trazendo à tona conceitos e possibilidades do uso de plataformas robustas com a colaboração de comunidades com interesse em comum.
_______________________________________________________________________________________________________________________
Autor: NEUMAN, W. R.; PARK, Y. J.; PANEK, E.
Título: Tracking the Flow of Information into the Home: An Empirical Assessment of the Digital Revolution in the United States, 1960–2005. International Journal of Communication, v. 6. 2012. p. 1022–1041.
Local: Disponível em: <http://ijoc.org/index.php/ijoc/article/viewFile/1369/745> . Acesso em: 08 jun. 2014.
Descrição: Os autores apresentam uma relação temporal da quantidade de informação informações que circulam nos meios de comunicação nos Estados Unidos. Passaram de 50.000 minutos por dia no ano 1960 a cerca de 900.000 consumidos em 2005.
_______________________________________________________________________________________________________________________
Autor: O’REILLY Media.
Título: Big Data Now – Current Perspectives from O’Reilly Media. Boston: O’Reilly. 2012.
Local: Disponível em: <http://cdn.oreillystatic.com/oreilly/radarreport/0636920028307/Big_Data_Now_2012_Edition.pdf >. Acesso em: 20 jun. 2014.
Descrição: Apresenta um enfoque dedicado aos negócios e como é possível utilizar dados massivos para gerar novos produtos e serviços. Também serve como introdução a linguagem Big Data incluindo definições e estruturas básicas sobre sua arquitetura e funcionamento.
_______________________________________________________________________________________________________________________
Autor: PATIL, D.J.
Título: Data Jujitsu: the art of turning data into product. O'Reilly Radar Report, 2013.
Local: Disponível em: <http://www.oreilly.com/data/free/data-jujitsu.csp> . Acesso em: 20 jun. 2014.
Descrição: Apresenta estudo do uso da tecnologia Big Data para análise massiva de dados com a supervisão de especialistas qualificados utilizando processos de análise automatizada.
_______________________________________________________________________________________________________________________
Autor: POZZI, Steven R.
Título: Big Data, Big Opportunities. best`s review, n. 11, 2014.
Local: Disponível em: <http://www.informatica.com/Images/2017_big-data-bigger-opportunities_br_en-US.pdf>. Acesso em: 20 jun. 2014.
Descrição: Uma pesquisa de 2013 realizada pela IBM Global Business Services apontou que 74% das companhias de seguros pesquisadas relatam que o uso de informações, incluindo análise de grande dados, criam vantagens competitivas para suas organizações. Isso representa um aumento de 111% em apenas dois anos. O desafio para o setor de seguros é gerir e aproveitar o poder do fenômeno big data. Empresas com sistemas de TI terão dificuldades para integrar e analisar dados estruturados e não estruturados e passarão a buscar funcionários com habilidades para analisar dados massivos.
_______________________________________________________________________________________________________________________
Autor: TORRES I VIÑALS, Jordi.
Título: Del cloud computing al big data:visión introductoria para jóvenes emprendedores. Barcelona, Universitat Oberta de Catalunya, 2012.
Local: Disponível em: <http://www.jorditorres.org/wp-content/uploads/2012/03/Del.Cloud_.Computing.al_.Big_.Data_.JordiTorres.ES.pdf>. Acesso em: 20 jun. 2014.
Descrição: Discute como a computação em nuvem está tornando possível a inserção da tecnologia digital em todas as esferas da economia da sociedade, permitindo que os usuários estejam conectados a este novo mundo digital através de seus dispositivos móveis, exigindo transformações sobre variáveis de armazenamento e processamento deste fenômeno até então invisível e que representa novas oportunidades profissionais.
_______________________________________________________________________________________________________________________
Autor: WORLD ECONOMIC FORUM.
Título: Big data, big impact: new possibilities for international development, Geneva, Switzerland, 2012.
Local: Disponível em: <http://www3.weforum.org/docs/WEF_TC_MFS_BigDataBigImpact_Briefing_2012.pdf > . Acesso em: 20 jun. 2014.
Descrição: Análise das interações de pessoas que utilizam computadores, dispositivos GPS, telefones celulares e dispositivos médicos. Muitas dessas interações ocorrem através do uso de dispositivos móveis que estão sendo usados por pessoas cujas necessidades e hábitos têm sido mal entendidos até agora. Pesquisadores e governo começaram a discutir alternativas para canalizar grande volúmes de dados em informações úteis que podem ser usadas para identificar as necessidades, prestação de serviços, prever e prevenir crises para o benefício das populações de baixa renda. Conclui que são necessárias novas ações por parte dos governos e iniciativa privada para garantir que esses dados ajudem a sociedade em todos os níveis.